python xpath提取转码_python爬虫网页提取器——xpath

最新推荐文章于 2023-05-15 21:29:10 发布

weixin_39658474

最新推荐文章于 2023-05-15 21:29:10 发布

阅读量108

点赞数

文章标签： python xpath提取转码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39658474/article/details/114394119

版权

xpath简单来说就是根据网页的源码路径去找你想要的的信息。

例子：

html='''

测试-常规用法

这是第一条信息
这是第二条信息
这是第三条信息

不需要的信息1
不需要的信息2
不需要的信息3

点我打开课程库

'''

设网页文本如上：

xpath简单提取方法(chrome的审查元素有xpath的提取方式)

# -*- coding:utf-8 -*-

from lxml import etree#导入xpath

selector=etree.HTML(html, parser=None, base_url=None)

#提取文本

context=selector.xpath('//*[@id="useful"]/li/text()')

for each in context:

print each

#结果显示：这是第一条信息

#这是第二条信息

#这是第三条信息

#提取属性

link=selector.xpath('//*[@id="url"]/a/@href')

for each in link:

print each

#结果显示：http://jikexueyuan.com

#http://jikexueyuan.com/course/

#提取标题

title=selector.xpath('//*[@id="url"]/a/@title')

print title[0]

#结果显示：极客学院课程库

weixin_39658474

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python xpath提取转码_python爬虫网页提取器——xpath

xpath简单来说就是根据网页的源码路径去找你想要的的信息。例子：html='''测试-常规用法这是第一条信息这是第二条信息这是第三条信息不需要的信息1不需要的信息2不需要的信息3极客学院点我打开课程库'''设网页文本如上：xpath简单提取方法(chrome的审查元素有xpath的提取方式)# -*- coding:utf-8 -*-from lxml import etree#导入xpaths...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。