python爬取京东手机数据_用scrapy爬取京东的数据

最新推荐文章于 2024-05-13 00:44:01 发布

weixin_39526185

最新推荐文章于 2024-05-13 00:44:01 发布

阅读量1.1k

点赞数 1

文章标签： python爬取京东手机数据

本文介绍了如何利用Python的Scrapy框架爬取京东网站上的所有手机数据，并将这些数据存储到MongoDB数据库中。文章详细分析了京东搜索页面的结构，包括如何处理分页和隐藏链接，以及如何构造请求参数。最后，通过设置Scrapy爬虫，成功实现了数据抓取和存储，并在MongoDB中检查了抓取的数据。

摘要由CSDN通过智能技术生成

本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中。

一、项目介绍

主要目标

1、使用scrapy爬取京东上所有的手机数据

2、将爬取的数据存储到MongoDB

环境

win7、python2、pycharm

技术

1、数据采集：scrapy

2、数据存储：MongoDB

难点分析

和其他的电商网站相比，京东的搜索类爬取主要有以下几个难点：

1、搜索一个商品时，一开始显示的商品数量为30个，当下拉这一页时，又会出现30个商品，这就是60个商品了，前30个可以直接从原网页上拿到，后30个却在另一个隐藏链接中，要访问这两个链接，才能拿到一页的所有数据。

2、隐藏链接的构造，发现最后的那个show_items字段其实是前30个商品的id。

3、直接反问隐藏链接被拒绝访问，京东的服务器会检查链接的来源，只有来自当前页的链接他才会允许访问。

4、前30个商品的那一页的链接page字段的自增是1、3、5。。。这样的，而后30个的自增是2、4、6。。。这样的。

下面看具体的分析。

二、网页分析

首先打开京东的首页搜索“手机”：

一开始他的地址是这样的：

转到第2页，会看到，他的地址变成这样子了：

后面的字段全变了，那么第2页的url明显更容易看出信息，主要修改的字段其实就是keyword，page，其实还有一个wq字段，这个得值和keyword是一样的。

那么我们就可以使用第二页的url来抓取数据，可以看出第2页的url中page字段为3。

但是查看原网页的时候却只有30条数据，还有30条数据隐藏在一个网页中：

从这里面可以看到他的Request url。

再看一下他的response：

里面正好就是我们需要的信息。

看一下他的参数请求：

这些参数不难以构造，一些未知的参数可以删掉，而那个show_items参数，其实

最低0.47元/天解锁文章

weixin_39526185

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python爬取京东手机数据_用scrapy爬取京东的数据

本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中。一、项目介绍主要目标1、使用scrapy爬取京东上所有的手机数据2、将爬取的数据存储到MongoDB环境win7、python2、pycharm技术1、数据采集：scrapy2、数据存储：MongoDB难点分析和其他的电商网站相比，京东的搜索类爬取主要有以下几个难点：1、搜索一个商品时，一开始显示的商品数量为30个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。