1.scrapy startproject myproject
2.scrapy genspider
$ scrapy genspider -l
Available templates:
basic
crawl
csvfeed
xmlfeed
$ scrapy genspider -d basic
import scrapy
class $classname(scrapy.Spider):
name = "$name"
allowed_domains = ["$domain"]
start_urls = (
'http://www.$domain/',
)
def parse(self, response):
pass
$ scrapy genspider -t basic example example.com
Created spider 'example' using template 'basic' in module:
mybot.spiders.example
3.$ scrapy crawl myspider
4.scrapy runspider <spider_file.py>
在未创建项目的情况下,运行一个编写在Python文件中的spider。
$ scrapy runspider myspider.py
$ scrapy runspider myspider.py -o abc.json
4.在运行 crawl 时添加 -a 可以传递Spider参数
scrapy crawl myspider -a category=electronics
scrapy shell < url >
dos命令中输入scrapy shell命令,启动Scrapy shell,进入命令交互模式
python print
python内置函数 zip(),用于拼接数据,支持多个数据,逗号隔开,$ zip(demo1, demo2, demo3)
scrapy 项目目录说明
pipelines.py中的数值在1~1000以内,且不能重复,执行顺序从小数值到大数值
在pipelines.py中print(spider.name, ‘pipelines’)结果如下:
scrapy 自带SQLite3框架,用于将数据存储与数据库