XPath的使用点击跳转
使用Beautiful Soup4从HTML源代码中提取有用的信息
简介
BeautifulSoup4(BS4)
是Python
的一个第三方库,用来从HTML
和XML
中提取数据。
BeautifulSoup4
在某些方面比XPath
易懂,但是不如XPath
简洁,而且由于它是使用Python
开发的,因此速度比XPath
慢。
使用pip
命令安装:pip install beautifulsoup4
安装后,切换到Python
的交互窗口,输入from bs4 import BeautifulSoup
,如果没有报错则说明安装成功
语法讲解
使用Beautiful Soup4
提取HTML
内容,一般要经过以下两步。
- 处理源代码生成
BeautifulSoup
对象。 - 使用
find_all()
或者find()
来查找内容。
源代码解析
- 解析源代码生成
BeautifulSoup
对象,使用以下的代码格式soup = BeautifulSoup(网页源代码,'解析器')
- 这里的解析器可以写成
html.parser
,如果你安装了lxml
,还可以写成lxml
soup = BeautifulSoup(source, 'lxml') soup = BeautifulSoup(source, 'html.parser')
find和find_all
find
和find_all
的区别就是前者会返回第一个满足条件的数据,后者返回全部满足条件的数据
查找内容
-
查找内容的基本流程和使用
XPath
非常相似。首先要找到包含特殊属性值的标签,并使用这个标签来寻找内容。 -
假设需要获取“我需要的信息2”,由于这个信息所在
< li >
标签的class
属性的值为“test
”,这个值本身就很特殊,因此可以直接通过这个值来进行定位.from bs4 import BeautifulSoup source = ''' <html> <head> <title>测试</title> </head> <body> <div class="useful"> <ul> <li class="info">我需要的信息1</li> <li class="test">我需要的信息2</li> <li class="iamstrange">我需要的信息3</li> </ul> </div> <div class="useless"> <ul> <li class="info">垃圾1</li> <li class="info">垃圾2</li> </ul> </div> </body> </html> ''' soup = BeautifulSoup(source, 'lxml') # soup = BeautifulSoup(source, 'html.parser') info = soup.find(class_