网络爬虫之数据解析

最新推荐文章于 2024-08-14 10:14:38 发布

「已注销」

最新推荐文章于 2024-08-14 10:14:38 发布

阅读量1.2k

点赞数 1

分类专栏： Web Crawler 文章标签：正则表达式 xpath 网络爬虫

原文链接：https://blog.csdn.net/qq_25439417/article/details/84106153

版权

本文探讨了网络爬虫中数据解析的两种常见方法：XPath与lxml库，以及BeautifulSoup4库的使用。XPath的基本语法包括选取结点、谓语和通配符，使用时需要注意特定事项。同时，文章还介绍了正则表达式及其在re模块中的应用，用于检索和替换匹配特定模式的文本。最后，对这些解析工具进行了对比分析。

摘要由CSDN通过智能技术生成

XPath与lxml库

XPath基本语法

1、选取结点

在这里插入图片描述
2、谓语

在这里插入图片描述
3、通配符

在这里插入图片描述

使用方式

XPath使用方式：

使用 // 获取整个页面当中的元素，然后写标签名，然后再写谓语进行提取

# 使用lxml库解析HTML代码：

# 1、解析HTML字符串
html = etree.HTML(text)
# 2、解析HTML文件
# 指定解析器，默认为XML解析器
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("index.html", parser=parser)
# 1、获取所有tr标签
trs = html.xpath("//tr")
# 2、获取第二个tr标签
trs = html.xpath("//tr[2]")
# 3、获取所有class等于even的tr标签
trs = html.xpath("//tr[@class='even']")
# 4、获取所有a标签的href属性
a = html.xpath("//a/@href")

注意事项

在这里插入图片描述

BeautifulSoup4库

主要的解析器：

在这里插入图片描述

soup = BeautifulSoup(html, 'lxml')
# 获取所有tr标签
trs = soup.find_all('tr')
# 获取第二个tr标签
trs = soup.find_all('tr', limit=

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录