python爬虫教程:bs4的使用

bs4 的使用

  1. bs4 就是Beautiful Soup 的简称,这是一个工具箱,通过解析文档为用户提供需要抓取的数据,
  2. 使用这个不需要在编码的上面考虑,他会自动转换为utf-8编码。
  3. 但是使用这个的前提的就是网页是完整的,但是现在的网页大多规范化,所以都是可以用的
  4. 官网: http://beautifulsoup.readthedocs.io/zh_CN/latest/
  5. bs4 必须使用一种解析器,如果你没有安装其他的HTML解析器,他会默认使用自带的解析器,但是lxml 解析器更加强大,速度更快,推荐安装
  6. 对于 四种解析器的对比
解析器使用方法优势劣势
Python标准库BeautifulSoup(markup, “html.parser”)1. Python的内置标准库 2. 执行速度适中 3.文档容错能力强Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器BeautifulSoup(markup, “lxml”)1. 速度快 2.文档容错能力强需要安装C语言库
lxml XML 解析器BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)1. 速度快 2.唯一支持XML的解析器 3.需要安装C语言库 
html5libBeautifulSoup(markup, “html5lib”)1. 最好的容错性 2.以浏览器的方式解析文档 3.生成HTML5格式的文档 4.速度慢不依赖外部扩展

想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!

对于bs4 有四大对象种类

  1. Tag
  2. navigableString
  3. BeautifulSoup
  4. Comment

更加细致的编写的方法,可以去官网查看

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值