python——Beautiful Soup库

Beautiful Soup安装引用

Beautiful Soup库是解析、遍历、维护“标签树”的功能库
win10环境下用管理员权限启动cmd命令台,输入

pip install beautifulsoup4

命令进行下载安装。
在idle中用

from bs4 import BeautifulSoup

进行引用

Beautiful Soup的属性

Beautiful Soup库解析器

解析器使用方法使用条件
bs4的HTTP解析器Beautiful Soup(mk,‘html.parser’)安装bs4库
lxml的HTML解析器Beautiful Soup(mk,‘lxml’)pip install lxml
lxml的XML解析器Beautiful Soup(mk,‘xml’)pip install lxml
html5lib解析器Beautiful Soup(mk,‘htlm5lib’)pip install html5lib

Beautiful Soup类的基本元素

基本元素说明获取方式
Tag标签,用<>和</>开头和结尾.tag
Name标签的名字<>中间的字符即名字.name
Attributes标签的属性,字典,格式:.attrs.attrs
NavigableString标签内容
Comment标签内的注释.string

HTML遍历方式
在这里插入图片描述
下行遍历

属性说明
.contents节点的子节点列表,将节点信息存入列表
.children子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
.descendants子孙节点的迭代类型,包含子孙节点,用于遍历

上行遍历

属性说明
.parent节点的父亲标签
.parents节点先辈标签

平行遍历

属性说明
.next_sibling返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling返回文本顺序的上一个平行节点标签
.next_siblings迭代
.previous_siblings迭代

<>.find_all的使用

<>.find_all(name,attrs,recursive,string,**kwatgs)
'''
返回一个列表类型,存储查找结果
name:对标签名称的检索字符串(True显示所有标签)
attrs:对标签属性值的检索字符串
recursive:是否对子孙全部检索,默认True
string:对标签中字符串区域进行检索
'''

拓展方法
<'tag>(…) 等价于 <‘tag>.find_all(…)
soup(…) 等价于 soup.find_all(…)

方法说明
<>find()搜索且只返回一个结果
<>find_parents()在先辈节点中搜索,返回列表
<>find_parent()在先辈节点中返回一个解锁,字符串
<>find_next_siblings()在后续平行节点中搜索,返回列表
<>find_next_sibling()在后续平行节点中返回一个结果,字符串
<>find_previous_siblings()在前序平行节点中搜索,返回列表
<>find_previous_sibling()在前序平行节点返回一个结果,字符串
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值