python爬虫parsel-css选择器的具体用法

最新推荐文章于 2024-07-26 11:59:52 发布

程序员王炸

最新推荐文章于 2024-07-26 11:59:52 发布

阅读量2.2k

点赞数 6

分类专栏： python 文章标签： python 爬虫 css

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ai520wangzha/article/details/131594886

版权

python 专栏收录该内容

53 篇文章 6 订阅

订阅专栏

本文主要介绍了python爬虫parsel-css选择器的具体用法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

parsel 比 lxml 功能强大，它内部不光集成有xpath语法，也集成了css和re语法，相比而言，css与re通用性更强，它俩的性能完全不输xpath，特别是re，速度更快，难度也高！

引入

1 2	`import` `parsel` `import` `requests`

语法使用

1

2

3

url = 'http://www.baidu.com'

response = requests.get(url)

selector = parsel.Selector(response.text)

选择所有元素

1	`selector.css('*')`

1、选择article元素

1 2	`html` `=` `selector.css('article')` `# get(), getall() , extract_first(), extract() 都可以`

2、选择id为container的元素

1	`selector.css('#container')`

3、选择所有class包含container的元素

1	`selector.css('.container')`

4、选取所有div下所有a元素

1	`selector.css('div a')`

5、提取标签title列表

1 2	`title1` `=` `selector.css('title').extract()` `title2` `=` `selector.css('title').extract_first()`

6、提取标签p里的文本内容

1	`text` `=` `selector.css('p::text').extract()`

7、提取标签div里的所有文本内容

1	`data` `=` `selector.css('div.post-content *::text').extract()`

8、提取标签里的URL：标签名::attr(属性名)

1	`url` `=` `selector.css('div.post-content img::attr(src)').extract()`

9、选取所有拥有title属性的a元素

1	`a` `=` `selector.css('a[title]').getall()`

拓展语法

选取ul后面的第一个p元素

1	`selector.css('ul + p')`

选取与ul相邻的所有p元素

1	`selector.css('ul ~ p')`

选取下面第二个标签，如果是a的话则选取，不是则不取

1	`selector.css('a:nth-child(2)')`

选取第偶数个a元素

1	`selector.css('a:nth-child(2n)')`

选取第奇数个a元素

1	`selector.css('a:nth-child(2n+1)')`

选取class为multi-chosen的li的所有a元素

1	`selector.css('li.multi-chosen > a')`

选取所有href属性为www.baidu.com的a元素

1	`selector.css('a[href=”www.baidu.com”]')`

选取所有href属性值中包含www.baidu.com的a元素

1	`a[href*=”www.baidu.com”]`

选取所有href属性值中以http开头的a元素

1	`a[href^=”http”]`

选取所有id为非content-container 的div

1	`div:not(#content-container)`

到此这篇关于python爬虫parsel-css选择器的具体用法的文章就介绍到这了。

点击拿去
50G+学习视频教程
100+Python初阶、中阶、高阶电子书籍

程序员王炸

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。