BeautifulSoup
-
BeautifulSoup是Python独有.简单便捷和高效
-
安装bs4
pip install bs4 # pip install lxml bs4用到lxml库,如果没有安装过lxml库的时候,需要安装一下
-
代码使用流程
-
1、导包
from bs4 import BeautifulSoup
-
2、创建BeautifulSoup对象
Beautiful('网络请求到的页面数据','lxml')
-
3、使用属性和方法
(1)根据标签名查找 - soup.a 只能找到第一个符合要求的标签 (2)获取属性 - soup.a.attrs 获取a所有的属性和属性值,返回一个字典 - soup.a.attrs['href'] 获取href属性 - soup.a['href'] 也可简写为这种形式 (3)获取内容 - soup.a.string /text() - soup.a.text //text() - soup.a.get_text() //text() 【注意】如果标签还有标签,那么string获取到的结果为None,而其它两个,可以获取文本内容 (4)find:找到第一个符合要求的标签 - soup.find(
-