目录
1. Beautiful Soup简介
- 什么是Beautiful Soup
- Beautiful Soup与lxml、正则的关系
2. Beautiful Soup主要内容
课堂笔记
1. Beautiful Soup简介
1.1 什么是Beautiful Soup
- Beautiful Soup是一个可以从HTML/XML文件中提取网页数据的的提取库
- Beautiful Soup自动将输入文档以Unicode格式编码,输出文档以utf-8格式编码,一般无需考虑编码方式,除非文档本身并没有定义,此时也只需自定义编码格式即可
- Beautiful Soup文档
1.2 Beautiful Soup与lxml、正则的关系
- Beautiful Soup与lxml基本类似,都支持HTML/XML解析以及CSS选择器
工具 |
速度 |
使用难度 |
工作方式 |
正则 |
最快 |
较难 |
NFA匹配算法 |
lxml |
快 |
较容易 |
不载入整个文档,局部解析DOM树 |
Beautiful Soup |
最慢 |
最容易 |
载入整个文档,解析整个DOM树 |
from bs4 import BeautifulSoup
html = '<html><body><p><a>123</a><a>456</a></p></body></html>'
bs = BeautifulSoup(html, 'lxml')
print(bs.prettify())
print(bs.a, bs.a.name)
print(bs.a