Scrapy自动爬虫(crawl模板)【scrapy genspider -t crawl news news.sina.com.cn】
Crawl自动爬虫适用:
对有规律的网站进行自动爬取
Crawl自动爬虫总体思路:
- 先获取初始网址,获取初始网址中的所有链接,筛选出目标链接并进行访问
- 从访问的链接中返回需要的信息
- 在访问的链接中重复(1)(2)
Crawl自动爬虫与Basic基础爬虫的区别
模板中多了一个rules()方法,包括有参数:LinkExtractor链接提取,其参数allow指定从Start_url中提取链接的规则;callback指定回调处理函数;follow指定是否执行步骤(3)
目标:
获取当日(2021-06-19)的放置在新浪新闻首页的新闻
分析:
对于当日的新闻,新闻连接中均出现了2021-06-19的时间字样,不管前面的前缀为/c /x。故链接筛选规则可设置为该时间字样。
进入某一新闻首页后,<title>标签下的文本内容为该新闻网页的题目,大部分新闻的网址放在带有 og:url属性的<meta>标签中,但有的新闻源码中没