【python】【爬虫】Scrapy Crawl自动爬虫【获取新浪新闻为例】

最新推荐文章于 2024-05-20 21:35:11 发布

Banana忍冬

最新推荐文章于 2024-05-20 21:35:11 发布

阅读量2.4k

点赞数 1

分类专栏： python # 爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BananaChoas/article/details/117979924

版权

Scrapy自动爬虫（crawl模板）【scrapy genspider -t crawl news news.sina.com.cn】

Crawl自动爬虫适用：

对有规律的网站进行自动爬取

Crawl自动爬虫总体思路：

先获取初始网址，获取初始网址中的所有链接，筛选出目标链接并进行访问
从访问的链接中返回需要的信息
在访问的链接中重复（1）（2）

Crawl自动爬虫与Basic基础爬虫的区别

模板中多了一个rules()方法，包括有参数：LinkExtractor链接提取，其参数allow指定从Start_url中提取链接的规则；callback指定回调处理函数；follow指定是否执行步骤（3）

目标：

获取当日（2021-06-19）的放置在新浪新闻首页的新闻

分析：

对于当日的新闻，新闻连接中均出现了2021-06-19的时间字样，不管前面的前缀为/c /x。故链接筛选规则可设置为该时间字样。

进入某一新闻首页后，<title>标签下的文本内容为该新闻网页的题目，大部分新闻的网址放在带有 og:url属性的<meta>标签中，但有的新闻源码中没

最低0.47元/天解锁文章

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【python】【爬虫】Scrapy Crawl自动爬虫【获取新浪新闻为例】

先获取初始网址，获取该网址中的所有链接，爬取所有链接
复制链接

扫一扫

专栏目录

目录

分类专栏

python 39篇
爬虫 19篇
分析 6篇
前端 6篇
JS 4篇
CSS 2篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。