html 遍历文档树,Python爬虫-bs4遍历文档树-bs4搜索文档树-css选择器

from bs4 import BeautifulSoup

import re

# 要解析的文档内容

html_doc = """

The Dormouse's story

hhhh

Once upon a time there were three little sisters; and their names were

Elsie,

Lacie and

Tillie;

and they lived at the bottom of a well.

...

"""

soup = BeautifulSoup(html_doc,'lxml')

# 过滤器,find_all 查找所有匹配的标签

# 按照名字匹配 可以传一个名字或一个列表

# print(soup.find_all('a'))

# print(soup.find_all(['a','p']))

# 找id为link1 的a标签

# print(soup.find_all('a',attrs={'id':'link1'}))

# print(soup.find_all('a',attrs={'class':'sister'}))

# print(soup.find_all(name='a',id='link1'))

# 注意如果要按照条件为class来查找,需要使用class_ 因为class是关键字

# 多个类名加空格即可

# 只能找到类名完全匹配的如:

# print(soup.find_all(name='a',class_='sister brother'))

# 只要类名带有sister就能找到

# print(soup.find_all(name='a',class_='sister'))

# 如果属性带有特殊符号 可以把条件装在attrs中

# print(soup.find_all(name='a',attrs={'data-a':'sister'}))

# 指定文本

# print(soup.find_all(name='a',text='Elsie'))

# 过滤器

# 标签名称中带有a字母的标签

# print(soup.find_all(name="a"))

# res = re.compile('b')

# 正则匹配

# print(soup.find_all(name=res))

# 数组

# print(soup.find_all(name=['body','a']))

# True表示所有标签

# print(soup.find_all(True))

# 所有具备id属性的标签

# print(soup.find_all(id=True))

# 方法匹配(写个函数来过滤)

# 必须只能有一个参数,参数表示要过滤的标签

def MyFilter(tag):

return tag.name == "a" and tag.text != "Elsie" and tag.has_attr("id")

print(soup.find_all(MyFilter,limit=1))

# 使用方式和find_all 相同

print(soup.find('a'))

# 总结: 过滤可以是数组,可以是一个 re,可以是一个函数,可以是True

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下 4载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值