常用命令
startproject 创建一个新工程 scrapy startproject [dir]
genspider 创建一个爬虫 scrapy genspider [options]
settings 获得爬虫配置信息 scrapy settings [options] crawl
建立步骤
步骤1:建立一个Scrapy爬虫工程
选取一个目录(D:\pycodes\),然后执行如下命令
> scrapy startproject python123demo
目录结构
再来看一下 spider/文件夹
步骤2:在工程中产生一个Scrapy爬虫
进入工程目录(D:\pycodes\python123demo),然后执行如下命令,也可以手动创建
> scrapy genspider demo python123.io
该命令作用:
(1) 生成一个名称为demo的spider
(2) 在spiders目录下增加代码文件demo.py
(3)上述命令中demo
是文件名,python123.io
是demo.py
文件中的start_urls
步骤3:配置产生的spider爬虫
配置:(1)初始URL地址 (2)获取页面后的解析方式
# -*- coding: utf-8 -*-
import scrapy
class DemoSpider(scrapy.Spider):
name = 'demo'
#allowed_domains = ['python123.io']
start_urls = ['http://python123.io/ws/demo.html']
def parse(self, response):
fname = response.url.split('/')[-1]
with open(fname,'wb') as f:
f.write(response.body)
self.log('Savad file %s.' % name)
步骤4:运行爬虫,获取网页
在命令行下,执行如下命令:
demo是/spiders/demo.py中的name变量的值
scrapy crawl demo
demo爬虫被执行,捕获页面存储在demo.html
完整的demo.py代码
yield关键字的使用见
http://blog.csdn.net/co_zy/article/details/77191480