一,安装
命令行进入python.exe文件所在目录,输入pip install bs4
二…Beatiful Soup库简介
以HTML文件为例,它的源代码由一组尖括号构成的标签组织起来的。每一对尖括号形成一个标签,而标签之间存在上下游关系,形成一个便签数。所以Beatiful Soup库是解析,遍历,维护“标签树”的功能库。
三…基本用法
from bs4 import BeautifulSoup%从bs4库中引入类BeautifulSoup
soup = BeautifulSoup('<p>data</p>','html.parser')
注意:BeautifulSoup是一个类,且分大小写。第一个参数是要解析的html格式的信息,后一个是解析器。
执行后BeautifulSoup对应一个HTML/XML文档的全部内容,编码方式都为utf-8编码。
四.BeatifulSoup类的基本元素
基本元素 | 说明 |
---|---|
Tag | 标签,最基本的信息组织单元,用<>和</>表明开头和结尾 |
Name | 标签名字,上述尖括号里的内容。格式:<标签名>.name |
Attributes | 标签属性,字典形式组织,格式:<标签命>.attrs |
NavigableString | 标签内非属性字符串,<>…</>中字符串,格式:<标签名>.string |
Comment | 标签内字符串的注释部分,一种特殊的Comment类型 |
五.基于bs4库的HTML内容遍历方法
html和xml文件对应的树形结构如下: