一.安装与功能概述
1.安装
pip install beautifulSoup4
2.功能
BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库
BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器
二.常用规则和方法
soup.标签 #获取第一个标签
soup.标签.attrs #获取标签的所有属性
soup.标签.attrs['指定属性'] #获取标签的第一个属性
soup.标签.get('指定属性') #获取标签的第一个属性
soup.标签.text/soup.标签.get_text() #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.标签.string #获取一个标签下的文本内容,只有在此标签没有子标签,或者只有一个子标签的情况下才能返回其中的内容,否则返回的就是None
soup.find_all(标签) #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.find_all(标签,'指定属性'='指定值') #限定 注:eg 'class'→'class_'(关键字)
soup.select()#写css选择器规则匹配符合规则的数据
三.css选择器
1.回顾
# → id选择器
. → class选择器
> → 子代后代选择器
2.eg
print(soup.select('p.story>a')) #筛选父辈为story p标签的a标签
339

被折叠的 条评论
为什么被折叠?



