2020-12-09

操作解析文档树

遍历文档树
(1)获取直接子结点
contents属性和children属性可以获取Tag的直接子结点。
(2)获取所有有子结点
descendants属性可以对所有Tag的子结点进行递归循环,需要遍历获取其中的内容。
(3)获取结点内容
✓ 当标签中不再包含标签,string属性返回标签中的内容;
✓ 标签中内嵌唯一标签,那么string属性返回最里面标签的内容;
✓ Tag包含了多个子标签结点,string的输出结果是None。
搜索文档树
(1)find_all()方法
搜索当前Tag的所有子结点,语法如下。
find_all(name,attrs,recursive,text,**kwargs)
✓ name:名字为name的标签。
✓ attrs:按照Tag标签属性值检索,采用字典形式。
✓ recursive:如果只想搜索Tag的直接子结点,可以使用参数recursive=False。
✓ text:通过text参数可以搜索文本字符中内容。
✓ limit:限制返回结果的数量。
(2)find()方法
find()方法返回找到的第一个结果。
find(name,attrs,recursive,text)
参数含义与find_all()方法完全相同。
(3)用CSS选择器筛选元素
CSS的选择器用于选择网页元素,可以分为标签选择器、类选择器和id选择器三种。在CSS中,标签名不加任何修饰,类名前面需要加点(.)标识,id名前加#号来标识。在bs4库中,也可以利用类似的方法来筛选元素,用到的方法是soup.select(),返回类型是列表。

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值