小结:
(一)
bs4库的基本元素:
tag 标签
name 标签名称
attributes 标签属性
navigablestring 字符串
comment 注释信息
bs库的遍历功能:
下行遍历
【.contents】[.children].[.descendants]
上行遍历
【.parents】【.parent】
平行遍历
【.next.sibling】【.previous_sibling】【.next_siblings】【.next_siblings】
信息标记三种方法: xml json yaml
信息提取的一般方法<>.find_all(name,sttrs,recursive,string,**kwargs)
可以把.find_all省略
(一)beautiful soup库
(1)安装 pip install beautifulsoup4
测试是否安装成功,对demo进行html的解析 查看该页面的源代码
显示安装成功
from bs4 import BeautifulSoup
(2)beautifulsoup库的基本元素
该库是解析html的功能库
源代码有一组尖括号构成的标签组织起来的。
beautifulsoup库是解析 遍历 维护 “标签树”的功能库
beautifulsoup 对应一个html/xml文档的全部内容
html.parser()
解析器:
基本元素: