3 使用Beautiful Soup解析网页
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。目前Beautiful Soup 3已经停止开发,大部分的爬虫选择使用Beautiful Soup 4开发。Beautiful Soup不仅支持Python标准库中的HTML解析器,还支持一些第三方的解析器,具体语法如下。

lxml解析器比较常用。
3.1 创建BeautifulSoup对象
要使用Beautiful Soup库解析网页首先需要创建BeautifulSoup对象,将字符串或HTML文件传入。
创建一个BeautifulSoup对象,使用格式如下。
BeautifulSoup("<html>data</html>") #通过字符串创建
BeautifulSoup(open("index.html")) #通过HTML文件创建
import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml&#

最低0.47元/天 解锁文章
9685

被折叠的 条评论
为什么被折叠?



