【python】【爬虫】Scrapy Crawl自动爬虫【获取新浪新闻为例】

Scrapy自动爬虫(crawl模板)【scrapy genspider -t crawl news news.sina.com.cn】

Crawl自动爬虫适用:

对有规律的网站进行自动爬取

Crawl自动爬虫总体思路:

  1. 先获取初始网址,获取初始网址中的所有链接,筛选出目标链接并进行访问
  2. 从访问的链接中返回需要的信息
  3. 在访问的链接中重复(1)(2)

Crawl自动爬虫与Basic基础爬虫的区别

模板中多了一个rules()方法,包括有参数:LinkExtractor链接提取,其参数allow指定从Start_url中提取链接的规则;callback指定回调处理函数;follow指定是否执行步骤(3)

目标:

获取当日(2021-06-19)的放置在新浪新闻首页的新闻

分析:

对于当日的新闻,新闻连接中均出现了2021-06-19的时间字样,不管前面的前缀为/c /x。故链接筛选规则可设置为该时间字样。

进入某一新闻首页后,<title>标签下的文本内容为该新闻网页的题目,大部分新闻的网址放在带有 og:url属性的<meta>标签中,但有的新闻源码中没

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值