Python爬虫：scrapy内置网页解析库parsel-通过css和xpath解析xml、html

最新推荐文章于 2024-04-27 17:30:34 发布

彭世瑜

最新推荐文章于 2024-04-27 17:30:34 发布

阅读量474

点赞数

文章标签： python 爬虫 scrapy

本文为博主原创文章，欢迎转载，请注明出处

本文链接：https://blog.csdn.net/mouday/article/details/129752643

版权

文档

https://pypi.org/project/parsel/
https://github.com/scrapy/parsel

安装

pip install parsel

代码示例

from parsel import Selector

selector = Selector(text="""<html>
        <body>
            <h1>Hello, Parsel!</h1>
            <ul>
                <li><a href="http://example.com">Link 1</a></li>
                <li><a href="http://scrapy.org">Link 2</a></li>
            </ul>
        </body>
        </html>""")

selector.css('h1::text').get()
'Hello, Parsel!'

selector.xpath('//h1/text()').re(r'\w+')
['Hello', 'Parsel']

for li in selector.css('ul > li'):
    print(li.xpath('.//@href').get())
http://example.com
http://scrapy.org