1.
创建项目
scrapy startproject myproject
cd myproject
2.
创建爬虫
scrapy genspider myspider www.baidu.com
scrapy genspider
-
t crawl myspider www.baidu.com
-
-
-
-
创建有rules配置
3.
运行爬虫
scrapy crawl myspider
4.
错误检查
scrapy check
-
-
-
-
检查爬虫的语法错误
5.
列出爬虫
scrapy
list
-
-
返回项目里spider名称
6.
测试网页
scrapy fetch www.baidu.com
scrapy fetch
-
-
nolog www.baidu.com
-
-
-
-
不会生成日志
scrapy fetch
-
-
nolog
-
-
headers www.baidu.com
-
-
输出headers
scrapy fetch
-
-
nolog
-
-
no
-
redirect
-
-
-
不会重定向
7.
请求网页 把网页源代码保存成文件,在用浏览器打开(调试工具)
scrapy view http:
/
/
www.baidu.com
8.
命令行交互模式shell
scrapy shell http:
/
/
www.baidu.com
request
-
-
-
请求的网页
response
-
-
请求网页的返回结果
response.text请求结果
response.headers
-
-
headers
view(response)
-
-
-
在网页上打开返回的结果(如果能显示出来,说明是静态网页,能直接爬,如果没显示,说明是Ajax加载的网页)
response.xpath("")
-
-
用xpath解析网页
9.
解析网页的内容
scrapy parse http:
/
/
www.baidu.com
-
c parse
-
-
-
前面是parse方法,后面是callback调用解析的parse方法
10.
获取配置信息
scrapy settings
-
-
get MONGO_URL
-
-
-
获取配置信息
11.
运行spider文件
scrapy runspider myspider.py
-
-
-
直接运行myspider文件(参数是文件名称)
12.
输出版本
scrapy version
scrapy version
-
v
-
-
-
输出依赖库的版本
13.
测试
scrapy bench
-
-
-
测试爬行速度,反应当前运行性能