itemPipline 主要是处理数据,他里面提供了很多处理数据的类,比如数据验证,文件储存,图片储存,去重等。
下面进行实战案例演示: 这样是爬取当当网搜索的python图书数据
网址:python-当当网
1.先创建项目,进入项目
scrapy startproject dangdang
cd dangdang
目录结构:
2.创建爬虫文件,这时候spiders文件夹里,会多一个dang.py文件,这就是爬虫文件的第一个入口,
scrapy genspider dang search.dangdang.com
在这里编写数据解析函数
3.然后还要去ltems.py文件里,定义需要获取的数据