打开 Terminal , 将 5 Scrapy 拖到 Terminal 上,即可进入到 5 Scrapy 的目录
新建Scrapy 项目:tutorial
C:\Users\Jiangfeng\PycharmProjects\QSModel\5 Scrapy>
scrapy startproject tutorial
新建之后,pycharm上展开 5 Scrapy 项目,可以看到你的tutorial 项目
进入 tutorial 项目中,创建默认的爬虫程序
C:\Users\Jiangfeng\PycharmProjects\QSModel\5 Scrapy>cd tutorial
C:\Users\Jiangfeng\PycharmProjects\QSModel\5 Scrapy\tutorial>
scrapy genspider example example.com
example.py:
# -*- coding: utf-8 -*-
import scrapy
class ExampleSpider(scrapy.Spider):
#
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
pass
也可以自定义爬虫程序
在 pychram 中 编辑 spiders 的 init.py,重名为 :
dmoz_spider.py:
import scrapy
'''
DmozSpider 继承 scrapy.Spider:
Spider是最简单的spider。
每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以及您自己编写的spider)。
Spider并没有提供什么特殊的功能。