【无标题】获取网页文本

-- coding: utf-8 --

author = ‘李元豪 from https://www.zhilu.space’

-- coding: utf-8 --

author = ‘李元豪 from https://www.zhilu.space’
from DrissionPage import Chromium
from lxml import etree

连接浏览器并获取一个MixTab对象

tab = Chromium().latest_tab

访问网址

tab.get(‘https://blog.csdn.net/rank/list’)
t=tab.html
parser = etree.HTMLParser()
tree = etree.fromstring(t, parser)

使用XPath提取所有文本

'.‘代表当前节点,’//'代表所有子孙节点,'text()'函数获取节点的文本内容

all_text = tree.xpath(‘.//text()’)

过滤掉空字符串

all_text = [text.strip() for text in all_text if text.strip()]

输出提取到的文本

for text in all_text:
print(text)

print(t)

切换到收发数据包模式

tab.change_mode()

获取所有行元素

items = tab.ele(‘.ui relaxed divided items explore-repo__list’).eles(‘.item’)

遍历获取到的元素

for item in items:
# 打印元素文本
print(item(‘t:h3’).text)
print(item(‘.project-desc mb-1’).text)
print()`# -- coding: utf-8 --
author = ‘李元豪 from https://www.zhilu.space’

-- coding: utf-8 --

author = ‘李元豪 from https://www.zhilu.space’
from DrissionPage import Chromium
from lxml import etree

连接浏览器并获取一个MixTab对象

tab = Chromium().latest_tab

访问网址

tab.get(‘https://blog.csdn.net/rank/list’)
t=tab.html
parser = etree.HTMLParser()
tree = etree.fromstring(t, parser)

使用XPath提取所有文本

'.‘代表当前节点,’//'代表所有子孙节点,'text()'函数获取节点的文本内容

all_text = tree.xpath(‘.//text()’)

过滤掉空字符串

all_text = [text.strip() for text in all_text if text.strip()]

输出提取到的文本

for text in all_text:
print(text)

print(t)

切换到收发数据包模式

tab.change_mode()

获取所有行元素

items = tab.ele(‘.ui relaxed divided items explore-repo__list’).eles(‘.item’)

遍历获取到的元素

for item in items:
# 打印元素文本
print(item(‘t:h3’).text)
print(item(‘.project-desc mb-1’).text)
print()`

# -*- coding: utf-8 -*-  
__author__ = '李元豪 from https://www.zhilu.space'
# -*- coding: utf-8 -*-
__author__ = '李元豪 from https://www.zhilu.space'
from DrissionPage import Chromium
from lxml import etree
# 连接浏览器并获取一个MixTab对象
tab = Chromium().latest_tab
# 访问网址
tab.get('https://blog.csdn.net/rank/list')
t=tab.html
parser = etree.HTMLParser()
tree = etree.fromstring(t, parser)

# 使用XPath提取所有文本
# '.'代表当前节点,'//'代表所有子孙节点,'text()'函数获取节点的文本内容
all_text = tree.xpath('.//text()')

# 过滤掉空字符串
all_text = [text.strip() for text in all_text if text.strip()]

# 输出提取到的文本
for text in all_text:
    print(text)

# print(t)
# 切换到收发数据包模式
tab.change_mode()
# 获取所有行元素
items = tab.ele('.ui relaxed divided items explore-repo__list').eles('.item')
# 遍历获取到的元素
for item in items:
    # 打印元素文本
    print(item('t:h3').text)
    print(item('.project-desc mb-1').text)
    print()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值