BeautifulSoup 4.40文档连接:
[https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/]
beautifulsoup是Python实现的一个解析库
构造方法:
- 两种构造方法
*BeautifulSoup(open(‘index.html’) 使用文件句柄构造
*BeautifulSoup("<html>data<html>") 使用代码构造
常用方法:
- find、find_all 找到相应的标签
- soup.prettify() 得到标准的缩进格式的结构
- get_text() 获取所有的文字内容(即网页显示的可视内容)
不常用方法
(参考:Python BeautifulSoup4 我碰到的一些不常用的用法)
- 查找无属性、无样式标签
把class置为falseno_tag = soup.find('li',{'class':False})
- 多个查找条件
soup.find('a',{'class':'nav-span','data-bn-ipg':'head-nav-community'})
(暂时先这样,等到以后需要更深入在进行深度的学习,保持更新…)