Parsel是一个使用XPath和CSS选择器从HTML和XML提取数据的库
官方网站:https://pypi.org/project/parsel/
安装方式:pip install parsel
Parsel是BSD许可的Python库,可使用XPath和CSS选择器(可选地与正则表达式结合) 从HTML 和XML中提取和删除数据。
例子:
from parsel import Selector
selector = Selector(text=u"""<html>
<body>
<h1>Hello, Parsel!</h1>
<ul>
<li><a href="http://example.com">Link 1</a></li>
<li><a href="http://scrapy.org">Link 2</a></li>
</ul>
</body>
</html>""")
selector.css('h1::text').get() #根据CSS获取数据,
#'Hello, Parsel!'
selector.xpath('//h1/text()').re(r'\w+')#根据xpath和正则表达式获取数据
#['Hello', 'Parsel']
for li in selector.css('ul > li'):
print(li.xpath('.//@href').get()) #使用xpath获取标签中属性值
#http://example.com
#http://scrapy.org
在线操作文档:
https://parsel.readthedocs.io/en/latest/