目标站点:”http://category.dangdang.com/pg1-cp01.54.04.00.00.00.html“
需求数据:商品标题、链接、价格、评论数
要求:实现自动翻页并自动写如数据库
第一步 在项目文件夹下打开终端,使用一下命令创建项目。
scrapy startproject dangdang
第二部 创建爬虫文件
scrapy genspider -t basic ddts dangdang.com
第三步 在items文件下写入即将要爬的内容
title = scrapy.Field()
link = scrapy.Field()
price = scrapy.Field()
comment = scrapy.Field()
第四步 编写爬虫文件
首先我们打开网页,在源代码里面找到定位元素,然后编写爬取规则,下面是我的代码
item["title"] = response.xpath("//a[@name='itemlist-title']/@title").extract()
item["link"] = response.xpath("//a[@name='itemlist-title']/@href").extract()
item["price"] = response.xpath("//span[@class='search