python爬取京东一款手机的评论

本文介绍了如何使用Python爬取京东手机评论,包括准备手机ID、评论URL和Cookie信息,详细代码实现,以及爬取结果的存储和展示。数据包括评论内容、评论ID、点赞数、手机信息、用户评分等。要获取更多手机评论,需先爬取所有手机ID并进行循环爬取。
摘要由CSDN通过智能技术生成


前言

最近做了一个京东手机数据分析,从JD爬了一些手机的数据,这里简单介绍一下爬取手机评论的部分。


一、准备信息

首先我们准备的数据有:

  1. 已知手机的id,可以根据京东上一款手机的网址查询得到。
    在这里插入图片描述

  2. 评论所在的url:
    寻找header参数
           利用google chrome打开网站,右键“检查”,找到Network选项,然后刷新页面,点击商品评价,等待服务器向页面传递参数。
          找到productPageComments点击,就会在右边Header中找到评论网址。
    url
          同时在header中也有cookie参数,将cookie参数复制到下面的代码相应位置。
    cookie

将上述参数准备好后,可以运行下面代码

  • 手机id
  • 评论url网址
  • cookie

二、详细代码

#胖虎Johnny
#2020.11.10
import urllib.request
import json
import random
import time as time0
import re,os
import pandas as pd

#设置代理
agents = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

def product_reviews(product_id = None,p = 0,maxPage = 99):
    root_dir='京东手机评论_详细字典'
    #判断之前是否爬取过这个型号手机的评论(一种型号的手机,颜色和内存不同,但评论共享)
    os.makedirs(root_dir,exist_ok=True)
    phone_list=os.listdir(root_dir)
    phone_txt=str(product_id)+'.txt'
    if phone_txt in phone_list:
        print(product_id)
        return []

    #对每一页循环爬取
    #"maxPage": 45
    k_head=0
    while p<maxPage:
        #所有品牌评论
        #url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={}&score=0&sortType=5&page={}&pageSize={}&isShadowSku=0&rid=0&fold=1'
        #只看当前商品的评论
        url=  'https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98&productId={}&score=0&sortType=5&
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值