Python爬虫beautifulsoup4常用的解析方法总结

最新推荐文章于 2024-04-10 01:13:42 发布

python进步学习者

最新推荐文章于 2024-04-10 01:13:42 发布

阅读量3.3k

点赞数 6

分类专栏： python教程文章标签：编程语言 python

本文链接：https://blog.csdn.net/haoxun05/article/details/104506184

版权

本文总结了Python爬虫BeautifulSoup4的常用解析方法，包括装载HTML文档、按标签、ID、类名等获取元素，以及使用CSS选择器等，还提醒了在使用过程中可能遇到的错误处理。

摘要由CSDN通过智能技术生成

今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
摘要

如何用beautifulsoup4解析各种情况的网页
beautifulsoup4的使用

关于beautifulsoup4，官网已经讲的很详细了，我这里就把一些常用的解析方法做个总结，方便查阅。

装载html文档

使用beautifulsoup的第一步是把html文档装载到beautifulsoup中，使其形成一个beautifulsoup对象。

import requests
from bs4 import BeautifulSoup
url = "http://new.qq.com/omn/20180705/20180705A0920X.html"
r = requests.get(url)
htmls = r.text
#print(htmls)
soup = BeautifulSoup(htmls, 'html.parser')

初始化BeautifulSoup类时，需要加入两个参数，第一个参数即是我们爬到html源码，第二个参数是html解析器，常用的有三个解析器，分别是”html.parser”,”lxml”,”html5lib”，官网推荐用lxml，因为效率高，当然需要pip install lxml一下。

当然这三种解析方式在某些情况解析得到的对象内容是不同的，比如对于标签不完整这一情况（p标签只有一半）：

soup = BeautifulSoup("<a></p>", "html.parser")
# 只有起始标签的会自动补全，只有结束标签的灰自动忽略
# 结果为：<a></a>
soup = BeautifulSoup("<a></p>", "lxml")
#结果为：<html><body><a></a></body></html>
soup = BeautifulSoup("<a></p>", "html5lib")
# html5lib则出现一般的标签都会自动补全
# 结果为：<html><head></head><body><a><p></p></a&