# | 正则regex | xpath | beautifulsoup |
---|---|---|---|
学习难度 | 难 | 中 | 简单 |
代码量 | 小 | 较少 | 较多 |
解析速度 | 快 | 较快 | 较快 |
场景 | 广泛 | 专一 | 专一 |
综合考虑,项目以xpath为主。
鉴于还不了解这些语句,我在文件后面补上了关于 正则、xpath和beautifulsoup综合性的例子
1> beautifulsoup
bs包把html按照节点的层次关系转换为树形文件,然后解析,简单易用。
这里以python3为例
安装 ‘pip install beautifulsoup4’ 注意’beautifulsoup’只能用于py2
1xml是安全解析html标签文档树,支持bs4和xpath。
安装 ‘pip install lxml’
以下为 beautifulsoup为例
from bs4 import BeautifulSoup
html = """
<html>
<body>
<a id="aaa" href='http://www.baidu.c