scrapy-爬虫
文章平均质量分 62
killeri
Python的自学者,时间很宝贵,我选择Python
展开
-
scrapy进阶(CrawlSpider爬虫__爬取整站小说)
重点在于CrawlSpider的学习!!!!!!!!!!!!!**通过前面的学习我们可以进行一些页面的简单自动话爬取,对于一些比较规则的网站,我们似乎可以用Spider类去应付,可是,对于一些较为复杂或者说链接的存放不规则的网站我们该怎么去爬取呢,接下来的爬虫就是要解决这个问题,而且还可以高度的自动化爬取链接和链接内容** CrawlSpider类,是建立爬虫的另外一个类。*(顺便说一下,我们可以继原创 2018-05-09 16:25:25 · 10033 阅读 · 7 评论 -
初探scrapy(用scrapy爬取一部小说)
讲起来我跟笔趣看真有不解之缘,之前刚学习python时就是用笔趣看作为试验网站,现在刚接触scrapy框架也是用它来练手。今天说的是用scrapy爬取一步小说 假设你已经安装了scrapy!第一步:创建一个scrapy’项目 在命令行输入 scrapy startproject biqukanproject 这样就创建了一个scrapy项目 第二步:在项目内创建一个爬虫 在项目命令行原创 2018-05-05 15:27:58 · 3704 阅读 · 4 评论 -
scrapy对接selenium(下载中间件的使用)
用scrapy对接selenium可以实现返回渲染好的页面,但是selenium是阻塞式的,也就是说,它每次只能进行一次请求,这样就会比较慢,所以并不推荐这种方法,今天这样做,只是为了练习一下下载中间件的使用,如果真要提取渲染好的页面,还是是用scrapy的Splash插件比较好 用scrapy对接selenium,必须用到现在中间件,我们知道,下载中间件可以对请求,响应或是错误进行处理。 我...原创 2018-05-31 16:04:49 · 4289 阅读 · 0 评论 -
scrapy的学习项目:每天都在进步,又是一个爬取图片的项目
我比较喜欢用写博客的方式来分析我的思路顺便分享我的代码 爬虫文件:pic360spider.py # -*- coding: utf-8 -*- import scrapy import json from urllib.parse import urlencode from scrapy.http import Request from pic360.items import Pic360...原创 2018-05-23 14:54:39 · 735 阅读 · 0 评论 -
抓取淘宝信息(scrapy框架,ajax请求的分析)
今天用scrapy框架抓取淘宝信息,因为淘宝的页面都是一个网关程序加载实现的,所以可以说每个页面的信息会随着每一次的刷新有所不同。当然这个我只是普及一下,跟我们今天的抓取关系不大 首先今天的抓取主要的内容是分析ajax请求,然后构造请求。实现的话我用的是scrapy框架,但是用requests也是可以的,只不过抓取的会慢一点而已!所以着重讲的是分析ajax请求,OK? 好了,废话有点多! 今...原创 2018-05-26 17:06:55 · 4531 阅读 · 1 评论 -
scrapy初探(自制管道和多个管道合用)
写博客只是为了分享一些我踩过的坑,有些坑真的很让人奔溃,所以写上一篇我们讲了用scrapy的原生管道下载图片,这篇来讲讲用自定义的管道来下载图片(当然也是在继承了原生管道后对方法的重定义)什么是scrapy的管道(pipelines): 讲了这么多我还没有具体讲一下什么是scrapy里面的管道,按这里我就具体讲一下什么是pipelines,pipelines有什么作用在一个工程里面,在pipeli原创 2018-05-07 16:54:35 · 4956 阅读 · 0 评论 -
scrapy初探(抓取图片)
今天还是带来的是一个用scrapy抓取图片的实战项目这次用scrapy的图片管道进行,下一篇我会讲解用自制管道进行图片的下载哦!具体的步骤你们可以去官网看看我这里主要会将一些步骤和常见的坑。。。这次我们先将settings.py文件,因为这次的坑主要会在这个文件中,对于抓取链接什么的,在前两篇文章已经将的很清楚了。由于是要抓取图片,所以这次在settings中的相关设置会有些不一样。和往常一样,我们原创 2018-05-07 10:41:34 · 3015 阅读 · 3 评论 -
scrapy实战项目(简单的爬取知乎项目)
本项目实现了对知乎用户信息的爬取,并没有用数据库等,只是简单地用一些提取了一些字段然后存储在了一个csv文件中,但是同样可以实现无线爬取,理论上可以实现万级数据的爬取(当然取决于网速了) 其实想爬取知乎网站是不需要进行登录的,通过一个个人账号就可以直接进行爬取了。 事先准备:要求不多,其实掌握了基本的scrapy爬虫编写的方式就可以了,当然对python的基本语法要有了解,还有就是一定的逻辑处...原创 2018-05-17 12:14:01 · 5802 阅读 · 3 评论 -
scrapy初探(抓取豆瓣top250)
这次我抓取的内容有:电影的title,director,评分,名言和详情页的电影简介,一共爬取五个内容。涉及主页的爬取和详情页的爬取。用scrapy可以很简单的实现这次爬取。 此次涉及 的除了scrapy框架外还有正则表达式的编写等知识。 豆瓣250 之前也爬取过,用的selenium自动化,这次用scrapy爬取一次,用于scrapy的初探 首先建立一个project: ...原创 2018-05-06 14:16:50 · 1128 阅读 · 1 评论