一、前言
在此声明,爬取亚马逊商品仅为学习,若用于商业用途,后果自负。
最近在学python,听说python有个非常牛逼的爬虫框架,借此学习下。虽然以前用JAVA也写过爬虫,不过实现的都是一些简易的功能,比如我开发的一个微信公众号(叫“妈妈再也不担心”,大家可以关注下
),里面比如的NBA赛事查询功能,热播电影查询等。这次我先拿亚马逊做测试,原来想爬取京东的商品,可一看京东网页源代码,简直疯了,太复杂了,它的商品评论是由JSONP生成。但是据我分析,其callback回调函数的名字是根据某种随机算法生成的,所以没辙,望大家告知。所以这次先在亚马逊上小试牛刀。源码我放到了
github上,大家可以去fork。
二、items.py
scrapy项目的具体项目搭建我就不讲了,大家可以自行百度,CSDN上有个专栏讲的非常不错,这里推荐下