1.建立工程,生成spider模板。
通过命令建立模板:
E:\python\>scrapy startproject BaiduStocks #命令行中进入相应工程目录下,新建以BaiduStocks为名的工程
E:\python\>cd BaiduStocks #进入工程目录
E:\python\>scrapy genspider stocks baidu.com #生成名为stocks的爬虫,在spider目录下将看到stocks.py的文件
2.编写一个spider爬虫程序:处理链接爬取和网页解析的功能
编写与配置stocks.py文件,使其能够处理返回页面与新增爬取请求
下面是stocks建成后未修改的模板格式:
# -*- coding: utf-8 -*- import scrapy
class StocksSpider(scrapy.Spider): name = "stocks" allowed_domains = ["baidu.com"] start_urls = ['http://baidu.com'] def parse(self, response): pass
对其进行编写。
3.编写Item pipelines:处理解析后的股票数据,并将这些数据存储到文件中
编写pipelines,配置pipelines.py文件。定义对爬取项Scraped Item的处理类。
pipelines.py未修改前:
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
class BaiduxueshuPipeline(object): def process_item(self, item, spider): return item
4.修改配置文件settings.py
修改一个参数ITEM_PIPELINES,加入自己定义的内容
5.进入命令行执行程序:scrapy crawl stocks #stocks是自己定义的爬虫名