爬虫
文章平均质量分 74
路漫漫`
这个作者很懒,什么都没留下…
展开
-
使用scrapy框架的中间件(Middleware)设置随机请求头
先scrapy startproject [爬虫项目名字]cd 进去,再scrapy genspider [爬虫名字] “http://httpbin.org/”之所以要用这个url是因为这个网站只返回你的user-agent,便于验证。先看一下两个方法:上面的图片结合下面的图一起看比较好(来源网络,侵权删):process_request在下载器发送请求前执行,通常在这个方法里设置请求头或者代理ip需要两个参数:request,spider返回值:None :上图自左向右,设中间原创 2020-05-18 21:57:55 · 1161 阅读 · 0 评论 -
scrapy框架Images Pipeline下载图片(重写方法来指定下载位置)
使用scrapy框架下载图片先介绍一下os模块:import os即可使用os.path.dirname (__ file__) 可以查看当前文件所在的目录,以如下目录为例:使用os.path.dirname(__ file__)得到的是第二个bmw(即蓝色框下面的那个)目录,假如我们想要在第一个bmw下面创建一个images文件夹,应该怎么做呢?所以我们使用os.path.dirname(os.path.dirname(file))语句,如此得到的就是第二个bmw所在的目录了(也就是第一个原创 2020-05-17 22:32:11 · 1222 阅读 · 0 评论 -
使用scrapy框架爬取汽车之家的图片(高清)
使用scrapy框架爬取汽车之家的图片(高清)不同于上一篇的地方是,这篇要爬取的是高清图片,而不仅仅是缩略图。先来看一下要爬取的页面:https://car.autohome.com.cn/pic/series/3464.html上一篇只是爬取了这些缩略图,而且每个子标签下还有很多图片都没有得到,所以这篇的目的是分别进入到这些子标签的详情页进行高清图片的爬取。准备工作网站格式先观察一下目标网站的格式:起始页是:https://car.autohome.com.cn/pic/series/原创 2020-05-17 20:53:12 · 964 阅读 · 0 评论