python抓取京东联盟优惠券_[爬虫]使用python抓取京东全站数据（商品，店铺，分类，评论）...

最新推荐文章于 2023-12-11 14:24:55 发布

颐爻

最新推荐文章于 2023-12-11 14:24:55 发布

阅读量1.8k

点赞数 1

文章标签： python抓取京东联盟优惠券

本文链接：https://blog.csdn.net/weixin_34183702/article/details/112887936

版权

本文介绍了如何利用Python的Scrapy和相关库抓取京东网站上的全站数据，包括商品信息、店铺详情、评论内容及分类信息。详细讲述了抓取每个部分的方法，如动态获取价格、优惠信息、评论数据等，并提供了相应的代码示例。

摘要由CSDN通过智能技术生成

网上抓取京东数据的文章，现在要么无法抓取数据，要么只能抓取部分数据，本文将介绍如何抓取京东全站数据，包括商品信息、店铺信息，评论信息，分类信息等。

-------------------------------------------------------------------------------

一、环境OS：win10

python：3.5

scrapy：1.3.2

pymongo：3.2

pycharm

环境搭建，自行百度

二、数据库说明

1. 产品分类

京东大概有1183个分类，这是除去了一些虚拟产品(话费、彩票、车票等)的分类，可以到如下网页查看：

https://www.jd.com/allSort.aspx

我们也是从这个网址开始抓取。由于这些分类里面也有属于频道的页面，也就是说，这个分类里面也有很多子分类，需要做一些特殊处理才可以拿到所有分类，具体方法，下文再说。

name #分类名称

url #分类url

_id #分类id

2. 产品

url #产品url

_id #产品id

category #产品分类

reallyPrice #产品价格

originalPrice #原价

description #产品描述

shopId #shop id

venderId #vender id

commentCount #评价总数

goodComment #好评数

generalComment #中评数

poolComment #差评数

favourableDesc1 #优惠描述1

favourableDesc2 #优惠描述2

3. 评论

_id #评论id

productId #产品id

guid

content #评论内容

creationTime #评论时间

isTop

referenceId

referenceName

referenceType

referenceTypeId

firstCategory

secondCategory

thirdCategory

replyCount #回复次数

score #分数

status

title

usefulVoteCount #被标记的有用评论数

uselessVoteCount #被标记的无用评论数

userImage

userImageUrl

userLevelId

userProvince

viewCount

orderId #订单id

isReplyGrade

nickname #评论人的名称

userClient

mergeOrderStatus

discussionId

productColor

productSize

imageCount #评论中图片的数量

integral

userImgFlag

anonymousFlag

userLevelName

plusAvailable

recommend

userLevelColor

userClientShow

isMobile #是否移动端评论

days

afterDays #追加评论数

4. 店铺

_id #店铺名称

name #店铺名称

url1 #店铺url1

url2 #店铺url2

shopId #shop id

venderId #vender id

5. 评论总结

_id

goodRateShow #好评率

poorRateShow #差评率

poorCountStr #差评数字符串

averageScore #平均分

generalCountStr #中评数字符串

showCount

showCountStr

goodCount #好评数

generalRate #中评率

generalCount #中评数

skuId

goodCountStr #好评数字符串

poorRate #差评率

afterCount #追评数

goodRateStyle

poorCount

skuIds

poorRateStyle

generalRateStyle

commentCountStr

commentCount

productId #产品id

afterCountStr

goodRate

generalRateShow

jwotestProduct

maxPage

score

soType

imageListCount

三、抓取说明

1. 抓取分类

代码如下：

def parse_category(self, response):

"""获取分类页"""

selector = Selector(response)

try:

texts = selector.xpath('//div[@class="category-item m"]/div[@class="mc"]/div[@class="items"]/dl/dd/a').extract()

for text in texts:

items = re.findall(r'(.*?)

最低0.47元/天解锁文章

颐爻

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python抓取京东联盟优惠券_[爬虫]使用python抓取京东全站数据（商品，店铺，分类，评论）...

网上抓取京东数据的文章，现在要么无法抓取数据，要么只能抓取部分数据，本文将介绍如何抓取京东全站数据，包括商品信息、店铺信息，评论信息，分类信息等。-------------------------------------------------------------------------------一、环境OS：win10python：3.5scrapy：1.3.2pymongo：3.2pyc...
复制链接

扫一扫