Scrapy
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
Scrapy批量爬取代理ip并构建Scrapy和requests可使用的ip池
本次爬取的是西刺代理原创 2019-02-27 23:53:48 · 734 阅读 · 0 评论 -
Scrapy定制图片管道爬取搜狗图片(Ajax接口)
进入页面,发现图片是动态加载的。通过Ajax加载json文件。所以对request header的url进行观察,发现start参数每次加15。所以爬取过程并不难解决,关键是图片的存储爬的过程还是会有坑的先看items.py,这个没啥import scrapyclass SougouphotoItem(scrapy.Item): # define the fields for...原创 2019-02-14 20:09:28 · 720 阅读 · 0 评论 -
Scrapy实例:爬取B站所有动漫番剧信息(Ajax接口+json数据解析)
。。闲来无事,爬了一下我最爱的B站~~~卒首先进入B站的番剧索引页ps:以前经常浏览这个索引页找动漫看,所以熟练的操作~滑稽翻页发现url链接并没有改变,用谷歌开发者工具network发现加载了XHR文件并返回json格式的响应要对其进行翻页处理,观察一下query string的规律,发现那么多个参数只有page这个参数是变化的所以接下来都很好做了~嘻嘻items.pyimp...原创 2019-02-13 21:11:50 · 2685 阅读 · 5 评论 -
Scrapy之Crawlspider实例:爬取沪江网校所有课程信息
点击此处查看要爬取的网页如图,利用Crawlspider将所有的课程信息爬取下来,并存入MongoDB数据库整体思路清晰,简单,不过有一个要注意的点,在插入到数据库的时候items.pyimport scrapyclass HujiangwangxiaoItem(scrapy.Item): _id = scrapy.Field() # 插入到MongoDB数据库最好一定要...原创 2019-02-12 15:54:36 · 1139 阅读 · 0 评论 -
Scrapy框架之Crawlspider爬取刺猬实习职位信息
点击查看要爬取的网页目标:利用Crawspider的特性在首页找到所有的职位分类的url,进入分页,再从分页进入详细页面获取所有的信息。首先打开cmd或者powershellscrapy startproject ciweishixicd ciweishixiscrapy genspider -t crawl Crawlspider ciweishixi.com生成一只继...原创 2019-02-11 23:46:55 · 441 阅读 · 0 评论 -
练手实例:Scrapy爬取一本完整小说(章节乱序问题解决)
戳这里查看此小说整体都很简单,没啥多说的,10分钟搞定外循环在主页面找url进行拼接,小循环解析详细页内容提取小说文本。biquge.pyimport scrapyfrom scrapy.selector import Selectorclass BiqugeSpider(scrapy.Spider): name = 'biquge' allowed_domai...原创 2019-02-10 20:51:33 · 6908 阅读 · 27 评论 -
Scrapy入门实例2:爬取简书网热门专题信息(动态网页,双重Ajax接口)
点击此处查看要爬取的网页目标,用Scrapy爬取每个专题的前十篇文章的概要信息。1.先在主网页抓取所有的详细页面的href进行拼接2.进入详细页面提取信息值得注意的是主网页和详细页面都是动态网页,都是Ajax加载的,不过规律很容易被发现,在谷歌开发者工具观察一下header就不难发现规律了。属于进阶一丢丢的练手实例。经发现主页面加载最多到36页。。就构造url咯items.pyi...原创 2019-02-10 15:59:57 · 1058 阅读 · 0 评论 -
Scrapy框架入门实例:Scrapy爬取豆瓣图书Top250
刚学了scrapy框架,找一个东西练练手点击此处查看网页先在cmd创建一个项目 ,记得先切换到对应的目录下面scrapy startproject doubanTop要把这些信息全部爬取下来故,先在items文件里面把要提取的信息的名字写好items.pyimport scrapyclass DoubantopItem(scrapy.Item): # define ...原创 2019-02-09 13:36:52 · 4052 阅读 · 3 评论