mysql好评中评统计_scrapy爬取京东笔记本及评论信息存入MySQL数据库

最新推荐文章于 2024-03-19 12:59:12 发布

王瑞恩

最新推荐文章于 2024-03-19 12:59:12 发布

阅读量501

点赞数 1

文章标签： mysql好评中评统计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29159441/article/details/113455182

版权

本文介绍了如何使用Scrapy爬虫抓取京东笔记本商品的详情和评论信息，包括商品价格、评论数量、用户评价等，并将其存储到MySQL数据库中。爬虫分为商品详情和评论详情两部分，解析接口URL，提取所需字段，最终通过pipelines.py将数据入库。

摘要由CSDN通过智能技术生成

爬取思路

1.分析页面，定义爬取字段

2.观察网页，分析接口url，通过xpath和json解析爬取内容字段

3.在pipelines.py写入存储方式

4.开始爬取

5.GitHub地址：https://github.com/HAOyanWEI24/Crawler/tree/master/jingdongspider 欢迎fork和star

1.分析网页，定义字段

通过观察页面，我将字段分为了两块：一块为商品详情，包括价格名称，评论数量等等内容，另一块主要从商品得到评论，会员的相关信息，定义如下：

1.商品详情：

link = scrapy.Field() 商品链接

project_id = scrapy.Field() 商品ID

name = scrapy.Field() 商品名字

comment_num = scrapy.Field() 评论人数

shop_name = scrapy.Field() 店家名字

price = scrapy.Field() 价钱

GoodCountStr = scrapy.Field() 好评

AfterCount = scrapy.Field() 中评

PoorCount = scrapy.Field() 差评

2.评论详情：

user_name = scrapy.Field() 评论用户的名字

user_id = scrapy.Field() 评论用户的ID

userProvince = scrapy.Field() 评论用户来自的地区

content = scrapy.Field() 评论内容

good_id = scrapy.Field() 评论的商品ID

good_name = scrapy.Field() 评论的商品名字

date = scrapy.Field() 评论时间

replyCount = scrapy.Field() 回复数

score = scrapy.Field() 评分

status = scrapy.Field() 状态

userLevelId = scrapy.Field() 用户等级

productColor = scrapy.Field() 商品颜色

productSize = scrapy.Field() 商品大小

userLevelName = scrapy.Field() 银牌会员，钻石会员等

userClientShow = scrapy.Field() 来自什么比如来自京东客户端

isMobile = scrapy.Field() 是否来自手机

days = scrapy.Field() 天数

接口思路解析：

京东网页中的很多数据是写在js中的，需要在network中查找接口路由，从而获得其真正所在的url地址，通过不同的id与接口组合得到不同的解析内容，分析如下：

分析接口：

f8c53a535fc0?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

商品价格接口分析.png

京东价格js接口url: https://p.3.cn/prices/mgets?callback=jQuery8876824&skuIds=J_4471753

f8c53a535fc0?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Image 5.png

京东评论数量js接口url: https://club.jd.com/comment/productCommentSummaries.action?referenceIds=4471753

f8c53a535fc0?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Image 6.png

京东评论js接

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql好评中评统计_scrapy爬取京东笔记本及评论信息存入MySQL数据库

爬取思路1.分析页面，定义爬取字段2.观察网页，分析接口url，通过xpath和json解析爬取内容字段3.在pipelines.py写入存储方式4.开始爬取5.GitHub地址：https://github.com/HAOyanWEI24/Crawler/tree/master/jingdongspider 欢迎fork和star1.分析网页，定义字段通过观察页面，我将字段分为了两块：一块为商品...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。