BeautifulSoup与Xpath解析库总结
Beautiful Soup 4.4.0 文档
BeautifulSoup使用视频
这里只介绍一下beautifulsoup的简单使用。
构建一个Beautifulsoup对象
传入一段文本进行构造,在构造的时候可以指定使用的解析器,比较常见的有’html.parser’和’lxml’,推荐使用后者。注意这个文本可以是任意文本,可以带html标签,也可以不带,但是那样好像beautifulsoup好像就没有什么用了,但是这样使用语法上是允许的。
from bs4 import BeautifulSoup
soup = BeautifulSoup('<html>hello,world!</html>', features='lxml')
print(soup.get_text()) # 输出为hello,world!
得到Beautifualsoup对象中的文本
可以通过两种方法:
得到去掉标签后的字符串
soup.get_text()
由一个beautifulsoup对象的到原字符串,即包含html标签的字符串
str(soup)
根据Beautifulsoup得到元素或者标签以及标签中的属性
all_href = soup.find_all('a')
all_href = [l['href'] for l in all_href]
根据CSS的类别来进行查找
find_all查找所有的元素
soup = BeautifulSoup(html, features='lxml')
month = soup.find_all('li', {
"class": "mo