一:前言
上周末非常开心,第一次去北京然后参见了zealer和夸克浏览器的联合线下沙龙会议,和大家交流很多收获很多,最让我吃惊的是他们团队非常年轻就有各种能力,每个人都很强。一个结论:我要继续努力!
贴上我们的合影,我很帅!:)
zealer&夸克浏览器.jpg
夸克浏览器合影.JPG
这次爬虫是使用selenium来模拟输入关键字(我是测试输入各种图书)然后把全部页数的相关的商品数据保存到mongodb,期间遇到各种问题,很多网站不是很容易就一次可以把网页解析好,很轻松的提取数据。这个亚马逊就是有点怪,这次是提取商品的名称,图片地址,价格,时间,因为我的初始目的是出入有关图书的关键字,所以时间就是图书出版时间。
关于‘python’关键字如图所示,爬取了300条数据。
mongodb数据.png