Scrapy的安装(三种方式)
第一种:
(1)在命令终端直接输入 conda install scrapy
(2)进程中会出现判断 是否继续 ,输入Y 或者按下Enter键 即可
第二种:
(1)升级pip版本:pip install --upgrade pip
(2)通过pip安装,在命令终端输入 pip install Scrapy 按下Enter键
第三种:
scrapy依赖twiste,使用whl格式的包进行安装
下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
进入后找到对应的whl格式的包 Twisted‑18.7.0‑cp36‑cp36m‑win32.whl 并下载
下载完成后使用cmd打开windows的命令行窗口,进入whl包所在的文件夹执行如下命令
安装完成后请不要关闭终端,输入scrapy 如果出现下图结果 说明安装成功并且可以使用(红色为本人添加)
Scrapy 的使用
创建一个scrapy文件夹
找到文件夹所在位置
在终端中输入cd空格 并将文件夹拉入终端 进入
在后面输入命令 scrapy startproject baidu 创建一个爬虫项目
出现上图 表示创建成功 然后输入红框内的两个命令
在上面项目创建好的同时(暂未执行红框两个命令),在指定目录下 会生成以下文件
spiders:以后所创建的爬虫文件会放在此文件夹下
__init__.py :初始化文件
items.py: 存放数据模型
middlewares.py:中间件,负责对内容处理
pipelines.py:通常用来控制执行的顺序
setting.py:设置项目的配置信息
按照上述终端内红框的两个命令提示,依次输入指定的命令
首先:cd空格baidu 并执行命令
然后:继续输入第二个命令 scrapy genspider baiduSpider baidu.com
注意:爬虫文件名字 不能和工程名字一致
命令执行完后,会在工程中生成以下文件
打开此文件
上图为原始状态,下图进行操作
# -*- coding: utf-8 -*-
import scrapy
class BaiduspiderSpider(scrapy.Spider):
name = 'baiduSpider' #必写
allowed_domains = ['baidu.com'] #允许爬虫的域名 可以不用
start_urls = ['http://www.taobao.com/'] #开始的网址,可以不是百度
#请求以后会自动指定的方法
def parse(self, response):
#获取请求的响应
print(response.text)
然后将要运行爬虫程序,继续之前终端操作 然后输入 scrapy crawl baiduSpider
如果发现 并没有 获取到响应,如下
那么 打开settings.py 并找到 ROBOTSTXT_OBEY = True 这是一个需要遵守的爬虫协议
现在将其注释掉,然后重新执行scrapy crawl baiduSpider 将会得到 response响应