Python之网络爬虫学习记录簿(5)

继续码解析库,BeautifulSoup简称BS是另一个功能强大的解析库,也是笔者比较喜欢用的(虽然大多数网页爬取用CSS或者XPath更方便)

解析库之BeautifulSoup

1,推荐pip安装:pip install beautifulsoup4
2,解析器支持:‘html.parser’,,lxml’,‘xml’,‘html5lib’推荐速度较快容错又强的’lxml’。
3,基本用法:

html = """
... ...
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html , 'lxml')
print(soup.prettify())

4,节点选择:

.节点名称                #直接获取节点
.string                 #获取节点文本
.name                   #获取节点名称
.attrs                  #获取节点属性
.节点名称['属性名']      #获取属性值
.contents               #获取直接子节点
.descendants            #获取所有子孙节点
.parent                 #获取直接父节点
.parents                #获取所有祖先节点
.next_sibling           #获取下一个直接节点
.previous_sibling       #获取上一个直接节点
.next_siblings          #获取所有后面的兄弟节点
.previous_siblings      #获取所有前面的兄弟节点

5,方法选择器:

find_all(name , attrs , recursive , text , **kwargs)
'''
name       :根据名称查询元素
attrs      :根据属性查询元素
text       :根据文本查询元素
**kwargs   :等于1时(等价于find())返回第一个匹配元素,否则返回列表
'''

BeautifulSoup还支持CSS选择器,详情参考:CSS参考使用CSS选择器只需要调用select()方法,传入相应的CSS选择器即可。
实例演示代码地址:Github-xylover

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值