初识Scrapy

Scrapy  : 

             Scrapy是一个应用程序框架,用于抓取网站并提取可用于广泛的有用应用程序的结构化数据,如数据挖掘,信息处理或历史档案

              Scrapy最初是为网页抓取而设计的,但它也可以用于使用API​​(如Amazon Associates Web Services)或作为通用网络抓取工具提取数据

Scrapy安装教程  :

              1. scrapy需要安装第三方库文件,lxml和Twisted
              2. 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
              3.       下载好文件之后,在DOS命令下pip install   文件的位置(lxlm)安装。
              4.       安装完成就可以安装:pip  install  scrapy

              5.      还需要安装 win32(启动蜘蛛的时候会提示安装,根据python版本来的我32位)      pip install pypiwin32

Scrapy的运行流程 :

            1 引擎访问spider,询问需要处理的URL链接,spider收到请求,将需要处理的URL告诉引擎,然后将URL给引擎处理。
            2 引擎通知调度器,调度器得到通知将URL排序入队,并加以处理。
            3 引擎通知调度器,调度器将处理好的request返回给引擎
            4 引擎接收到request后告诉下载器,按照setting中配置的顺序下载这个request的请求
           5 下载器收到请求,将下载好后的东西返回给引擎。如果下载失败,下载器会通知引擎,引擎再通知调度器,调度器收到消息后会记录这个下载失败的request。
           6 引擎得到下载好的东西后,通知spider(这里responses默认是交给def parse()函数处理)
           7 Spider收到通知后,处理接收的数据
           8 Spider处理完数据后返回给引擎两个结果:一个是需要跟进的URL,另一个是获取到的item数据。

           9 引擎将接收到的item数据交给管道处理,将需要跟进的URL交给调度器处理。重复循环直到获取完需要的全部信息。

创建一个项目:

             scrapy  startproject   tutorial         创建目录指定

             这将创建一个tutorial包含以下内容的目录:
                    scrapy 。cfg                部署配置文件
                    tutorial /                      project的Python模块,你将从这里导入你的代码
                          __init__ 。PY
                          物品。py                项目项目定义文件
                          中间件。py             项目中间件文件
                          管道。py                项目管道文件
                          设置。py                项目设置文件
                          蜘蛛/                      一个你将在后面放置你的蜘蛛

                              __init__的目录。PY

Scrapy爬虫实例 :

                       

Spider子类scrapy.Spider 定义了一些属性和方法:
                           name:标识蜘蛛。它在项目中必须是唯一的,也就是说,不能为不同的蜘蛛设置相同的名称。
                          start_requests():必须返回Spider将开始抓取的请求的迭代(您可以返回请求列表或编写生成器函数)。随后的请求将从这些初始请求中连续生成。
                        parse():将被调用来处理为每个请求下载的响应的方法。响应参数是TextResponse保存页面内容的一个实例,并有更多有用的方法来处理它。

                     该parse()方法通常解析响应,将提取的数据提取为字符串,并查找新的URL并Request根据它们创建新的请求()

  运行蜘蛛 :  

scrapy crawl s43999




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值