PythonCrawl自学日志(2)

一、Scrapy环境的安装

1.配套组件的安装

由于开发环境是在VS2015Community中编码,默认下载的python3.5,系统是windows8.1,为此需要安装的组件有如下列表:

所有的组件在pip、easy_install或者可执行exe无法安装时,使用下面的安装方法,

(1)pywim32(win32编程)

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import win32api检查是否安装成功,如果import win32con

可以运行,而import win32api显示DLL缺失时,将Python\Lib\site-packages\pywin32_system32\下的所有文件复制到c:\\windows\\system32文件夹下,即可运行

(2)Twisted (socket通讯)

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import OpenSSL检测是否安装成功

(3)zope.interface

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包,用 import zope检测是否安装成功

(4)YAML

在http://pyyaml.org/wiki/PyYAML下载对应的可执行就行了

(5)requests

使用指令 pip install requests==2.2.1

(6)progressbar

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包

(7)pyOpenSSL(通信协议ssl)

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包

2.Scrapy的安装

pip install scrapy

二、Scrapy一些命令行指令

1.新建爬虫项目 scrapy startproject 项目名
2.新建爬虫 scrapy genspider 爬虫名字 处理网址
3.运行爬虫 scrapy crawl 爬虫名
4.检查爬虫完整 scrapy check [-l] 爬虫名
5.列出爬虫 scrapy list
6.编辑爬虫 scrapy edit 爬虫名
7.显示爬取过程 scrapy fetch 处理网址
8.下载网页 scrapy view 处理网址
9.组件组合情况 scrapy parse 处理网址
10.爬虫压力测试scrapy bench
11.自定义指令 COMMANDS_MODULE ='定义指令'

转载于:https://www.cnblogs.com/AlloCa/p/5890777.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值