scrapy 安装 及应用

Scrapy的安装(三种方式)

第一种:

(1)在命令终端直接输入 conda install scrapy

(2)进程中会出现判断 是否继续  ,输入Y 或者按下Enter键 即可

第二种:

(1)升级pip版本:pip install   --upgrade pip

(2)通过pip安装,在命令终端输入 pip install Scrapy  按下Enter键

第三种:

scrapy依赖twiste,使用whl格式的包进行安装

下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

进入后找到对应的whl格式的包   Twisted‑18.7.0‑cp36‑cp36m‑win32.whl  并下载

下载完成后使用cmd打开windows的命令行窗口,进入whl包所在的文件夹执行如下命令

 

安装完成后请不要关闭终端,输入scrapy 如果出现下图结果 说明安装成功并且可以使用(红色为本人添加)

 

Scrapy 的使用

创建一个scrapy文件夹

找到文件夹所在位置

在终端中输入cd空格  并将文件夹拉入终端 进入

在后面输入命令  scrapy startproject baidu  创建一个爬虫项目

出现上图  表示创建成功  然后输入红框内的两个命令

在上面项目创建好的同时(暂未执行红框两个命令),在指定目录下  会生成以下文件

spiders:以后所创建的爬虫文件会放在此文件夹下

__init__.py :初始化文件

items.py: 存放数据模型

middlewares.py:中间件,负责对内容处理

pipelines.py:通常用来控制执行的顺序

setting.py:设置项目的配置信息

按照上述终端内红框的两个命令提示,依次输入指定的命令

首先:cd空格baidu  并执行命令

然后:继续输入第二个命令 scrapy genspider baiduSpider baidu.com

注意:爬虫文件名字 不能和工程名字一致

命令执行完后,会在工程中生成以下文件

打开此文件

上图为原始状态,下图进行操作

# -*- coding: utf-8 -*-
import scrapy


class BaiduspiderSpider(scrapy.Spider):
    name = 'baiduSpider'    #必写
    allowed_domains = ['baidu.com'] #允许爬虫的域名 可以不用
    start_urls = ['http://www.taobao.com/']  #开始的网址,可以不是百度

#请求以后会自动指定的方法
    def parse(self, response):
        #获取请求的响应
        print(response.text)

然后将要运行爬虫程序,继续之前终端操作  然后输入 scrapy crawl baiduSpider

如果发现 并没有 获取到响应,如下

那么 打开settings.py  并找到  ROBOTSTXT_OBEY = True 这是一个需要遵守的爬虫协议

现在将其注释掉,然后重新执行scrapy crawl baiduSpider 将会得到 response响应

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值