![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
运维老汉
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫——给女朋友的天气预报(简单模板版)
爬取天气预报 1.分析网页 中国天气网:http://www.weather.com.cn/weather1d/101280101.shtml 2.分析源码,获取你需要的信息,我这里获取第二条的天气情况原创 2020-03-17 16:33:33 · 2495 阅读 · 0 评论 -
Scrapy 使用LinkExtractor提取链接
LinkExtractor的使用非常简单,通过一个例子进行讲解,使用LinkExtractor替代Selector完成BooksSpider提取链接的任务,代码如下: from scrapy.linkextractors import LinkExtractor class BooksSpider(scrapy.Spider): ... def parse(self, resp...原创 2020-02-12 09:35:04 · 484 阅读 · 0 评论 -
Spider开发流程
实现一个Spider子类的过程很像是完成一系列填空题,Scrapy框架提出以下问题让用户在Spider子类中作答: ● 爬虫从哪个或哪些页面开始爬取? ● 对于一个已下载的页面,提取其中的哪些数据? ● 爬取完当前页面后,接下来爬取哪个或哪些页面?上面问题的答案包含了一个爬虫最重要的逻辑,回答了这些问题, 一个爬虫也就开发出来了。 下面给出一个简易爬虫的实例给读者找找感觉 # -*- cod...原创 2020-02-11 16:06:54 · 312 阅读 · 0 评论 -
Scrapy Request和Response对象
Request对象 Request对象用来描述一个HTTP请求,下面是其构造器方法的参数列表: Request(url[, callback, method='GET', headers, body, cookies, meta,encoding='utf-8', priority=0, dont_filter=False, errback 下面依次介绍这些参数。 ● url(必选) 请...原创 2020-02-11 15:33:55 · 335 阅读 · 0 评论 -
Scrapy框架结构及工作原理
话不多说,先上图1 首先,简单了解一下Scrapy框架中的各个组件 对于用户来说,Spider是最核心的组件,Scrapy爬虫开发是围绕实现Spider展开的。 接下来,看一下在框架中的数据流,有下表所示的3种对象。 Request和Response是HTTP协议中的术语,即HTTP请求和HTTP响应,Scrapy框架中定义了相应的Request和Response类,这里的...原创 2020-02-11 15:16:36 · 1706 阅读 · 0 评论