Python爬虫beautifulsoup4常用的解析方法总结

最新推荐文章于 2024-03-19 20:34:59 发布

weixin_33834137

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量572

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/Pythonmiss/p/10784120.html

版权

摘要

如何用beautifulsoup4解析各种情况的网页

beautifulsoup4的使用

关于beautifulsoup4，官网已经讲的很详细了，我这里就把一些常用的解析方法做个总结，方便查阅。

装载html文档

使用beautifulsoup的第一步是把html文档装载到beautifulsoup中，使其形成一个beautifulsoup对象。

初始化BeautifulSoup类时，需要加入两个参数，第一个参数即是我们爬到html源码，第二个参数是html解析器，常用的有三个解析器，分别是”html.parser”,”lxml”,”html5lib”，官网推荐用lxml，因为效率高，当然需要pip install lxml一下。

当然这三种解析方式在某些情况解析得到的对象内容是不同的，比如对于标签不完整这一情况（p标签只有一半）：

使用

在使用中，我尽量按照我使用的频率介绍，毕竟为了查阅~

按照标签名称、id、class等信息获取某个标签

按照标签名称、id、class等信息获取多个标签

按照标签的其他属性获取某个标签

找前头和后头的标签

找父标签

soup.find_parents("div")

soup.find_parent("div")

css选择器

注意几个可能出现的错误，可以用try捕获来防止爬虫进程

UnicodeEncodeError: ‘charmap' codec can't encode character u'\xfoo' in position bar (或其它类型的 UnicodeEncodeError

需要转码

AttributeError: ‘NoneType' object has no attribute ‘foo'

没这个属性

就介绍这么多，应该可以覆盖大部分网页结构了吧~！

转载于:https://www.cnblogs.com/Pythonmiss/p/10784120.html

weixin_33834137

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫beautifulsoup4常用的解析方法总结

摘要如何用beautifulsoup4解析各种情况的网页beautifulsoup4的使用关于beautifulsoup4，官网已经讲的很详细了，我这里就把一些常用的解析方法做个总结，方便查阅。装载html文档使用beautifulsoup的第一步是把html文档装载到beautifulsoup中，使其形成一个beautifulsoup对象。初始化Beau...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。