Python爬虫抓取京东评论生成Excel表格(附源码)

废话不多说直接开始
image

爬取京东单页评论

一、找到商品评论

二、检查网页源代码

搜索发现并没有想要内容

打开开发者工具查看抓取到的内容发现有评论内容,我们就可以对请url地址发送请求来获取数据
image.png

三、开始编写程序

代码

import requests
import re
headers = {
    'Connection': 'keep-alive',
    'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
    'sec-ch-ua-mobile': '?0',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36',
    'Accept': '*/*',
    'Sec-Fetch-Site': 'same-site',
    'Sec-Fetch-Mode': 'no-cors',
    'Sec-Fetch-Dest': 'script',
    'Referer': 'https://item.jd.com/',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}
cookies = {
    '__jdu': '1140149181',
    'shshshfpb': 'dxvAdGKVNzAegFZ04SPRPjw%3D%3D',
    'shshshfpa': '551d8e1b-9679-a2a9-4853-c893fad3a0c2-1588218470',
    'areaId': '13',
    'ipLoc-djd': '13-1042-3528-0',
    'unpl': 'V2_ZzNtbRBTFkYhDBZQeB4PBmIDEFwSXhYWcQERBykfWVFkBEcJclRCFnUUR1NnGFkUZwsZX0RcQBxFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHsZWQRnBhpdS1dzJXI4dmR4HVsHZgIiXHJWc1chVERTcx1bACoDElhDV0YddQFGZHopXw%3d%3d',
    '__jdv': '76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_c5dbe5a526b24130a8d258fbc74e26de|1622806649582',
    '__jda': '122270672.1140149181.1607922153.1622723717.1622806650.7',
    '__jdc': '122270672',
    '_gcl_au': '1.1.1090722577.1622806657',
    'shshshfp': '2642ee3c640efeb0e9447e6545757fca',
    '__jdb': '122270672.5.1140149181|7.1622806650',
    'shshshsID': '3742c97b007a5cf7adaa9cff4323c957_3_1622806689501',
    'JSESSIONID': '81C1CD5FA9D0F18E7FFADD802EC34264.s1',
    'jwotest_product': '99',
    '3AB9D23F7A4B3C9B': '6NAODRKK6T33JSTFT3NYNWJAJQ2BCPHUZTUM73ZFAJPIMAS44RCYDE4BC6G7LRUPAWKISABMYIUWYB2LIDAMRKRPVU',
}
url="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100020318814&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&rid=0&fold=1"
response = requests.get(url=url, headers=headers,cookies=cookies).text
res='"content":"(.*?)"'
content=re.findall(res,response)
for index,i in enumerate(content):
    print("第{}条评论:".format(index+1)+i+"\n")

运行结果

京东多页评论爬取

通过前三页url地址比对可以发现只有page的值有变化,所以我们可以用列表推导式来获取前10页url依次发送请求来实现多页爬取

def url_list():
    url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100020318814&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1"
    url_list=[url.format(i) for i in range(1,11)]
    return url_list

编写程序

代码

import requests
import re
def url_list():
    url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100020318814&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1"
    url_list=[url.format(i) for i in range(1,11)]
    return url_list
def url_parse(list):
    index = 1
    for url in list:
        headers = {
            'Connection': 'keep-alive',
            'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
            'sec-ch-ua-mobile': '?0',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36',
            'Accept': '*/*',
            'Sec-Fetch-Site': 'same-site',
            'Sec-Fetch-Mode': 'no-cors',
            'Sec-Fetch-Dest': 'script',
            'Referer': 'https://item.jd.com/',
            'Accept-Language': 'zh-CN,zh;q=0.9',
        }
        cookies = {
            '__jdu': '1140149181',
            'shshshfpb': 'dxvAdGKVNzAegFZ04SPRPjw%3D%3D',
            'shshshfpa': '551d8e1b-9679-a2a9-4853-c893fad3a0c2-1588218470',
            'areaId': '13',
            'ipLoc-djd': '13-1042-3528-0',
            'unpl': 'V2_ZzNtbRBTFkYhDBZQeB4PBmIDEFwSXhYWcQERBykfWVFkBEcJclRCFnUUR1NnGFkUZwsZX0RcQBxFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHsZWQRnBhpdS1dzJXI4dmR4HVsHZgIiXHJWc1chVERTcx1bACoDElhDV0YddQFGZHopXw%3d%3d',
            '__jdv': '76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_c5dbe5a526b24130a8d258fbc74e26de|1622806649582',
            '__jda': '122270672.1140149181.1607922153.1622723717.1622806650.7',
            '__jdc': '122270672',
            '_gcl_au': '1.1.1090722577.1622806657',
            'shshshfp': '2642ee3c640efeb0e9447e6545757fca',
            '__jdb': '122270672.5.1140149181|7.1622806650',
            'shshshsID': '3742c97b007a5cf7adaa9cff4323c957_3_1622806689501',
            'JSESSIONID': '81C1CD5FA9D0F18E7FFADD802EC34264.s1',
            'jwotest_product': '99',
            '3AB9D23F7A4B3C9B': '6NAODRKK6T33JSTFT3NYNWJAJQ2BCPHUZTUM73ZFAJPIMAS44RCYDE4BC6G7LRUPAWKISABMYIUWYB2LIDAMRKRPVU',
        }
        response = requests.get(url=url, headers=headers, cookies=cookies).text
        res = '"content":"(.*?)"'
        content = re.findall(res, response)
        for i in content:
            print(f"第{index}条评论:"+ i + "\n")
            index+=1
if __name__ == '__main__':
    list=url_list()
    url_parse(list)

运行结果

爬取京东多页评论生成excel表格

前面我们实现了爬取京东多页评论的功能,现在只要利用Pandas生成excel就可以

def excel(i,c,t):
    x=pd.DataFrame()
    x["时间"]=t                                     //t,i,c类型为列表
    x["ID"]=i
    x["评论内容"]=c
    x.to_excel("./京东评论.xlsx")

代码

import requests
import re
import pandas as pd
def url_list():
    url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100020318814&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1"
    url_list=[url.format(i) for i in range(1,11)]
    return url_list
def url_parse(list):
    index = 1
    id_list = []
    content_list=[]
    time_list=[]
    for url in list:
        headers = {
            'Connection': 'keep-alive',
            'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
            'sec-ch-ua-mobile': '?0',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36',
            'Accept': '*/*',
            'Sec-Fetch-Site': 'same-site',
            'Sec-Fetch-Mode': 'no-cors',
            'Sec-Fetch-Dest': 'script',
            'Referer': 'https://item.jd.com/',
            'Accept-Language': 'zh-CN,zh;q=0.9',
        }
        cookies = {
            '__jdu': '1140149181',
            'shshshfpb': 'dxvAdGKVNzAegFZ04SPRPjw%3D%3D',
            'shshshfpa': '551d8e1b-9679-a2a9-4853-c893fad3a0c2-1588218470',
            'areaId': '13',
            'ipLoc-djd': '13-1042-3528-0',
            'unpl': 'V2_ZzNtbRBTFkYhDBZQeB4PBmIDEFwSXhYWcQERBykfWVFkBEcJclRCFnUUR1NnGFkUZwsZX0RcQBxFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHsZWQRnBhpdS1dzJXI4dmR4HVsHZgIiXHJWc1chVERTcx1bACoDElhDV0YddQFGZHopXw%3d%3d',
            '__jdv': '76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_c5dbe5a526b24130a8d258fbc74e26de|1622806649582',
            '__jda': '122270672.1140149181.1607922153.1622723717.1622806650.7',
            '__jdc': '122270672',
            '_gcl_au': '1.1.1090722577.1622806657',
            'shshshfp': '2642ee3c640efeb0e9447e6545757fca',
            '__jdb': '122270672.5.1140149181|7.1622806650',
            'shshshsID': '3742c97b007a5cf7adaa9cff4323c957_3_1622806689501',
            'JSESSIONID': '81C1CD5FA9D0F18E7FFADD802EC34264.s1',
            'jwotest_product': '99',
            '3AB9D23F7A4B3C9B': '6NAODRKK6T33JSTFT3NYNWJAJQ2BCPHUZTUM73ZFAJPIMAS44RCYDE4BC6G7LRUPAWKISABMYIUWYB2LIDAMRKRPVU',
        }
        response = requests.get(url=url, headers=headers, cookies=cookies).text
        res_content = '"content":"(.*?)"'
        res_id = '"guid":"(.*?)"'
        res_time='"creationTime":"(.*?)"'
        content = re.findall(res_content, response)
        id= re.findall(res_id, response)
        time = re.findall(res_time, response)
        for i,c,t  in zip(id,content,time):
            id_list.append(i)
            content_list.append(c)
            time_list.append(t)
    print(id_list,content_list,time_list)
    return id_list,content_list,time_list
def excel(i,c,t):
    x=pd.DataFrame()
    x["时间"]=t
    x["ID"]=i
    x["评论内容"]=c
    x.to_excel("./京东评论.xlsx")

if __name__ == '__main__':
    list=url_list()
    i,c,t=url_parse(list)
    excel(i,c,t)

  • 8
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫抓取京东商品通常涉及以下几个步骤: 1. **安装必要的库**: 首先,你需要安装一些用于网络请求(如requests)、解析HTML(如BeautifulSoup或 lxml)和处理数据的库,比如`requests`, `bs4` 或者 `html.parser`。 2. **分析网页结构**: 打开京东的商品页面,查看HTML代码,找到包含商品信息的标签元素。这可能包括标题、价格、图片URL、描述等。理解这些信息如何通过JavaScript动态加载是关键,因为很多现代网站会用AJAX技术来更新内容。 3. **发送请求并获取HTML**: 使用`requests.get()`函数发送GET请求到商品详情页,获取返回的HTML源码。如果遇到需要登录或有反爬机制的情况,可能还需要模拟登录或设置User-Agent等头信息。 4. **解析HTML**: 使用BeautifulSoup或其他解析器,解析HTML源码,提取出所需的数据。根据元素的CSS选择器或XPath表达式定位商品信息。 5. **数据存储**: 将抓取到的数据(如字典或列表)保存到本地文件(CSV、JSON、数据库等),或者直接插入到数据库中,以便后续分析和展示。 6. **异常处理**: 爬虫过程中可能会遇到各种问题,如网络中断、服务器响应错误等,需要添加适当的错误处理代码。 7. **遵守网站规则**: 在编写爬虫时,务必遵守京东或其他网站的服务条款,尊重robots.txt协议,并尽量减少对服务器的压力,避免被封IP。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值