BeautifulSoup与lxml

最新推荐文章于 2024-08-21 16:44:17 发布

qq_26776745

最新推荐文章于 2024-08-21 16:44:17 发布

阅读量5.3k

点赞数 5

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26776745/article/details/79630573

版权

本文介绍了BeautifulSoup和lxml在爬虫中的使用，重点讲解了BeautifulSoup的节点操作、查找方法以及CSS选择器，同时提到了lxml的特性，包括XPath和CSS选择器的使用。

摘要由CSDN通过智能技术生成

在爬虫中，BeautfulSoup和lxml都是用来分析网页的，其中BeautifulSoup使用简单，但速度慢，也可以使用正则表达式来分析网页，获取有价值信息，但是正则表达式使用起来复杂，优点是速度快，最后lxml集合BeutifulSoup和正则表达式的优点，使用简单，速度也不比正则表达式慢。

一、BeautifulSoup

1、使用BeautifulSoup

使用BeautifulSoup需要从bs4模块导入BeautifulSoup，使用Beautiful有四种模式，具体看下图：

2、将html或者xml以适合人阅读的方式打印

BeautifulSoup对象的.prettify()，可以为Tag(标签、节点)换行补充，使得html和xml字符串容易理解。

print（soup.prettify（））

3、获取tag的名字和属性

tag.name获取当前节点的名字

tag['xxx']获取当前节点的xxx属性值

tag.string获取当前节

最低0.47元/天解锁文章

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。