scrapy
人生三醒七分醉
这个作者很懒,什么都没留下…
展开
-
python scrapy 下载文件与图片相关小知识
Scrapy为我们提供了可重用的 item pipelines为某个特定的Item去下载文件。 通常来说你会选择使用Files Pipeline或Images Pipeline。这两个管道都实现了:避免重复下载可以指定下载后保存的地方(文件系统目录中,Amazon S3中)Images Pipeline为处理图片提供了额外的功能:将所有下载的图片格式转换成普通的JPG并使用RGB颜色模式生成缩略图...转载 2018-03-14 18:08:50 · 345 阅读 · 0 评论 -
scrapy模拟登陆
模拟浏览器登录start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求Request()get请求,可以设置,url、cookie、回调函数FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的respons...转载 2018-03-16 17:57:55 · 387 阅读 · 0 评论 -
笔记——scrapy 抓取图片
今天来学习一下使用scrapy对图片的进行抓取1. 创建项目scrapy startproject xiaohuascrapy创建spider文件,取名xiaohua.py2.定义 Itemimport scrapyfrom scrapy.item import Item, Fieldclass XiaohuascrapyItem(scrapy.Item): # define the...原创 2018-03-16 17:30:47 · 226 阅读 · 0 评论 -
Scrapy笔记- Item Pipeline
当一个item被蜘蛛爬取到之后会被发送给Item Pipeline,然后多个组件按照顺序处理这个item。 每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑,还能决定这个item到底是否还要继续往下传输,如果不要了就直接丢弃。使用Item Pipeline的常用场景:清理HTML数据验证被抓取的数据(检查item是否包含某些字段...转载 2018-03-15 18:01:45 · 302 阅读 · 0 评论 -
Scrapy笔记-抓取虎嗅网
这篇文章我们通过一个比较完整的例子来教你使用Scrapy,我选择爬取虎嗅网首页的新闻列表。这里我们将完成如下几个步骤:创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pipline来存储提取出来的Item对象Scrapy使用Python语言编写,如果你对这门语言还不熟,请先去学习下基本知识。创建Scrapy工...转载 2018-03-15 15:08:10 · 710 阅读 · 0 评论 -
scrapy 安装
1.安装Python 安装完了记得配置环境,将python目录和python目录下的Scripts目录添加到系统环境变量的Path里。在cmd中输入python如果出现版本信息说明配置完毕2.安装lxml lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。网址https://pypi.python.org/pypi/lxml/3.3.1选择对应的Python版本安装。 3....原创 2017-11-01 13:51:33 · 243 阅读 · 0 评论 -
scrapy 抓取内涵社区
学scrapy有一段时间了,今天就抓取一个段子来总结一下,安装scrapy请参考上一篇。首先在dos命令下创建scrapyscrapy startproject myspider进入项目里面 创建dos命令下创建scrapy genspider nhsq "nhanshequ.com"这样框架就搭建好了。T:.│ scrapy.cfg│└─tutorial │ items.py...原创 2017-11-01 15:19:41 · 928 阅读 · 0 评论 -
笔记--scrapy 爬取IP 存储到MySQL数据库
本章将讲述爬取IP地址,为后期深入爬虫做准备1.准备工作分析一下我们要抓取那些字段和网页的结构,我们要抓取的是ip地址,端口,服务器地址,速度,存活时间等查看一下网页的结构可以看到要抓取的内容主要在table里面,按照次序抓取即可,最后是存储到数据库中。2.创建项目在终端创建一个项目scrapy startproject collectips创建spider文件cd collectipsscra...原创 2018-03-15 14:27:43 · 466 阅读 · 0 评论 -
scrapy 抓取糗百存储到Excel +MySQL数据库+MongoDB数据库
今天来学习一下用框架抓取糗事百科段子,安装scrapy请参考前面文章,首先创建一个项目,打开终端scrapy startproject qiubai目录下会生成一个qiubai的文件cd qiubai #进入里面scrapy genspider qiubai http://www.qiushibaike.com/8hr/page/1/?s=4984271 #创建spider文件,名字唯一的不能重...转载 2018-03-14 13:30:11 · 568 阅读 · 0 评论