python抓取京东联盟优惠券_[爬虫]使用python抓取京东全站数据(商品,店铺,分类,评论)...

本文介绍了如何利用Python的Scrapy和相关库抓取京东网站上的全站数据,包括商品信息、店铺详情、评论内容及分类信息。详细讲述了抓取每个部分的方法,如动态获取价格、优惠信息、评论数据等,并提供了相应的代码示例。
摘要由CSDN通过智能技术生成

网上抓取京东数据的文章,现在要么无法抓取数据,要么只能抓取部分数据,本文将介绍如何抓取京东全站数据,包括商品信息、店铺信息,评论信息,分类信息等。

-------------------------------------------------------------------------------

一、环境OS:win10

python:3.5

scrapy:1.3.2

pymongo:3.2

pycharm

环境搭建,自行百度

二、数据库说明

1. 产品分类

京东大概有1183个分类,这是除去了一些虚拟产品(话费、彩票、车票等)的分类,可以到如下网页查看:

https://www.jd.com/allSort.aspx

我们也是从这个网址开始抓取。由于这些分类里面也有属于频道的页面,也就是说,这个分类里面也有很多子分类,需要做一些特殊处理才可以拿到所有分类,具体方法,下文再说。

name #分类名称

url #分类url

_id #分类id

2. 产品

url #产品url

_id #产品id

category #产品分类

reallyPrice #产品价格

originalPrice #原价

description #产品描述

shopId #shop id

venderId #vender id

commentCount #评价总数

goodComment #好评数

generalComment #中评数

poolComment #差评数

favourableDesc1 #优惠描述1

favourableDesc2 #优惠描述2

3. 评论

_id #评论id

productId #产品id

guid

content #评论内容

creationTime #评论时间

isTop

referenceId

referenceName

referenceType

referenceTypeId

firstCategory

secondCategory

thirdCategory

replyCount #回复次数

score #分数

status

title

usefulVoteCount #被标记的有用评论数

uselessVoteCount #被标记的无用评论数

userImage

userImageUrl

userLevelId

userProvince

viewCount

orderId #订单id

isReplyGrade

nickname #评论人的名称

userClient

mergeOrderStatus

discussionId

productColor

productSize

imageCount #评论中图片的数量

integral

userImgFlag

anonymousFlag

userLevelName

plusAvailable

recommend

userLevelColor

userClientShow

isMobile #是否移动端评论

days

afterDays #追加评论数

4. 店铺

_id #店铺名称

name #店铺名称

url1 #店铺url1

url2 #店铺url2

shopId #shop id

venderId #vender id

5. 评论总结

_id

goodRateShow #好评率

poorRateShow #差评率

poorCountStr #差评数字符串

averageScore #平均分

generalCountStr #中评数字符串

showCount

showCountStr

goodCount #好评数

generalRate #中评率

generalCount #中评数

skuId

goodCountStr #好评数字符串

poorRate #差评率

afterCount #追评数

goodRateStyle

poorCount

skuIds

poorRateStyle

generalRateStyle

commentCountStr

commentCount

productId #产品id

afterCountStr

goodRate

generalRateShow

jwotestProduct

maxPage

score

soType

imageListCount

三、抓取说明

1. 抓取分类

代码如下:

def parse_category(self, response):

"""获取分类页"""

selector = Selector(response)

try:

texts = selector.xpath('//div[@class="category-item m"]/div[@class="mc"]/div[@class="items"]/dl/dd/a').extract()

for text in texts:

items = re.findall(r'(.*?)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值