如何在Urllib中使用XPath表达式

最新推荐文章于 2023-06-28 10:02:18 发布

Ssssun_369

最新推荐文章于 2023-06-28 10:02:18 发布

阅读量669

点赞数 1

分类专栏： python爬虫

本文链接：https://blog.csdn.net/S_123789/article/details/101622372

版权

python爬虫专栏收录该内容

9 篇文章 1 订阅

订阅专栏

XPath常用规则

nodename 	 选取此节点的所有子节点  
/             逐层提取
text()        提取标签下的文本内容
//标签名       提取所有此标签名的标签，如//title,提取所有title标签，包括title，若想剔除掉标签，要用text(),即//title/text()
//标签名[@属性=‘属性值’]     提取属性为XX的标签
.               选取当前节点 
 ..             选取当前节点的父节点
@属性名          代表取某个属性值

在Urllib中使用XPath表达式

通过Python的lxml库，利用XPath进行HTML的解析
1.安装好lxml后
2.首先要导入lxml中的etree模块，使用etree模块中的HTML方法构造解析对象（其实就是转换为xpath可以识别的格式）
3.利用解析对象.xpath 进行相应的匹配
代码示例：

from lxml import etree
import urllib.request
data = urllib.request.urlopen("https://home.firefoxchina.cn/").read().decode("utf-8","ignore")
treedata = etree.HTML(data)  #转换格式，构造解析对象
title = treedata.xpath("//title/text()")  #进行匹配,提取出来的内容不是列表
if(str(type(title)) == "<class 'list'>"):
    pass
else:
    title = [i for i in title]
print(title[0])

Ssssun_369

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何在Urllib中使用XPath表达式

XPath常用规则表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置.选取当前节点…选取当前节点的父节点@选取属性在Urllib中使用XPath表达式通过Python的lxml库，利用XPath进行HTML的解析1.安装好lxml后2.首先要导入lxm...
复制链接

扫一扫

专栏目录