python爬亚马逊数据,Python爬虫日记六:Selenium+xpath+bs4爬取亚马逊数据保存到mongodb...

本文介绍了一种使用Python结合Selenium、XPath和BeautifulSoup爬取亚马逊网站商品信息的方法,特别提到在提取时间信息时遇到的困难,最终通过XPath解决。数据存储到MongoDB中,爬取了包含商品名称、图片、价格和时间在内的300条'python'关键字相关数据。
摘要由CSDN通过智能技术生成

一:前言

上周末非常开心,第一次去北京然后参见了zealer和夸克浏览器的联合线下沙龙会议,和大家交流很多收获很多,最让我吃惊的是他们团队非常年轻就有各种能力,每个人都很强。一个结论:我要继续努力!

贴上我们的合影,我很帅!:)

6fe5efb87f83

zealer&夸克浏览器.jpg

6fe5efb87f83

夸克浏览器合影.JPG

这次爬虫是使用selenium来模拟输入关键字(我是测试输入各种图书)然后把全部页数的相关的商品数据保存到mongodb,期间遇到各种问题,很多网站不是很容易就一次可以把网页解析好,很轻松的提取数据。这个亚马逊就是有点怪,这次是提取商品的名称,图片地址,价格,时间,因为我的初始目的是出入有关图书的关键字,所以时间就是图书出版时间。

关于‘python’关键字如图所示,爬取了300条数据。

6fe5efb87f83

mongodb数据.png

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值