Scrapy css选择器提取数据===留存用

最新推荐文章于 2024-04-11 00:47:17 发布

小赖同学啊

最新推荐文章于 2024-04-11 00:47:17 发布

阅读量355

点赞数

分类专栏： python 自动化测试(app pc API) 文章标签： python css提取

本文链接：https://blog.csdn.net/testManger/article/details/109802695

版权

python 同时被 2 个专栏收录

129 篇文章 0 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

自动化测试(app pc API)

31 篇文章 1 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了使用Scrapy的CSS选择器提取网页数据的方法，包括标签属性值如href和src的提取，以及标签内容的提取。通过实例展示了如何限定提取范围，确保准确获取目标数据，同时还提及了CSS高级用法。

摘要由CSDN通过智能技术生成

一. 标签属性值的提取

href的值URL的提取：这是最常见的，我们要进入下一页、或是打开内容页……都少不了URL值，如下面这段HTML，我们来提取一下里面的URL

<ol class="page-navigator">
  <li class="current"><a href="http://lab.scrapyd.cn/page/1/">1</a></li>
  <li><a href="http://lab.scrapyd.cn/page/2/">2</a></li>
  <li><a href="http://lab.scrapyd.cn/page/3/">3</a></li>
  <li><a href="http://lab.scrapyd.cn/page/4/">4</a></li>
</ol>

这其实是我们爬虫实验室的分页，如果我们要爬取下一页，我们该如何提取URL呢？提取属性我们是用：“标签名::attr(属性名)”，比如我们要提取url表达式就是：a::attr(href)&#x

了解本专栏