一、确定需求
- 抓取京东详情页上的图书(打开搜索页面,输入出版社,点击按销量排、只看有货)
- 确定抓取元素:(共12个)
ID / 书名 / 价格 / 作者 / 出版日期 / 出版社 / 总评论数 / 书店名 /
ISBN /类型 - 新建表
- 打开docker,运行splash
docker run -p 8050:8050 scrapinghub/splash
二、流程
(一) 创建项目、爬虫
scrapy startproject jd_list
scrapy genspider name example.com
(二) 修改 Items
- 建字典,包含10个键
ID = scrapy.Field()
name = scrapy.Field()
price = scrapy.Field()
author = scrapy.Field()
pub_time =