关于利用Python无法直接抓取全部网易云音乐评论时怎么解决

最新推荐文章于 2024-07-30 17:23:09 发布

高雅的地瓜

最新推荐文章于 2024-07-30 17:23:09 发布

阅读量1.3k

点赞数

分类专栏： Python 文章标签： python json base64 网易数据

本文链接：https://blog.csdn.net/BurneAris/article/details/77918407

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

网易云音乐的走红跟其丰富的评论有着分不开的关系

我们跳过爬取歌名、歌词、精彩评论的部分，直接讲为什么无法利用普通的方法爬取多页的评论

这是某一首歌的第一页的评论，每一页共有20条评论，每条评论包含评论者的头像、昵称、评论内容、评论时间，因此我们先按照日常的爬取方式查看该页面的元素

但是如果直接以这种方式爬取，获取到的竟然不是我们想要的内容，而是一串乱码（具体我不知道，因为我是小白），所以评论可能采用JS脚本吧（我猜的），所以再查找网络部分的内容，后来找到R_SO_4_446512502?csrf_token=a23d0b9b801e8a0f273f9b1032be963d这个文件，我们可以查看该文件中的内容

刚好有20条评论，因此我可以从这里入手

但是我们可以看到该文件返回时使用的post那么提供的数据为

这里为一页的数据都是不一样的，因此我们要在这个我们需要提供的数据上下功夫，因此我在网上看到了平胸小仙女的方法才焕然大悟。

参考方法：https://www.zhihu.com/question/36081767/answer/140287795

作者：平胸小仙女
链接：https://www.zhihu.com/question/36081767/answer/140287795
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

from Crypto.Cipher import AES
import base64
import requests
import json


headers = {
    'Cookie': 'appver=1.5.0.75771;',
    'Referer': 'http://music.163.com/'
}

first_param = "{rid:\"\", offset:\"0\", total:\"true\", limit:\"20\", csrf_token:\"\"}"
second_param = "010001"
third_param = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
forth_param = "0CoJUm6Qyw8W8jud"

def get_params():
    iv = "0102030405060708"
    first_key = forth_param
    second_key = 16 * 'F'
    h_encText = AES_encrypt(first_param, first_key, iv)
    h_encText = AES_encrypt(h_encText, second_key, iv)
    return h_encText


def get_encSecKey():
    encSecKey = "257348aecb5e556c066de214e531faadd1c55d814f9be95fd06d6bff9f4c7a41f831f6394d5a3fd2e3881736d94a02ca919d952872e7d0a50ebfa1769a7a62d512f5f1ca21aec60bc3819a9c3ffca5eca9a0dba6d6f7249b06f5965ecfff3695b54e1c28f3f624750ed39e7de08fc8493242e26dbc4484a01c76f739e135637c"
    return encSecKey
    

def AES_encrypt(text, key, iv):
    pad = 16 - len(text) % 16
    text = text + pad * chr(pad)
    encryptor = AES.new(key, AES.MODE_CBC, iv)
    encrypt_text = encryptor.encrypt(text)
    encrypt_text = base64.b64encode(encrypt_text)
    return encrypt_text


def get_json(url, params, encSecKey):
    data = {
         "params": params,
         "encSecKey": encSecKey
    }
    response = requests.post(url, headers=headers, data=data)
    return response.content

在函数get_params()在此处仅是第一页是的数据，因此我们需要的是连续的多页的数据

from Crypto.Cipher import AES
import base64
import requests

class getJsonData():
    def __init__(self):
        #定义请求头
        self.headers = {
            'Cookie': 'appver=1.5.0.75771;',
            'Referer': 'http://music.163.com/'
        }
        ## offset的取值为:(评论页数-1)*20,total第一页为true，其余页为false
        #self.first_param = '{rid:"", offset:"0", total:"true", limit:"20", csrf_token:""}'
        #第二个参数
        self.second_param = "010001"
        #第三个参数
        self.third_param = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
        #第四个参数
        self.forth_param = "0CoJUm6Qyw8W8jud"
    
    #获取参数，page_num为评论页码
    def get_params(self, page_num):
        iv = "0102030405060708"
        first_key = self.forth_param
        second_key = 16 * 'F'
        #评论页码为第一页时
        if page_num == 1:
            self.first_param = '{rid:"", offset:"0", total:"true", limit:"20", csrf_token:""}'
        #评论页码为其他页时
        else:
            offset = str((page_num-1)*20)
            self.first_param = '{rid:"", offset:"%s", total:"%s", limit:"20", csrf_token:""}' %(offset, 'false')
        h_encText = self.AES_encrypt(self.first_param, first_key, iv)
        h_encText = self.AES_encrypt(h_encText, second_key, iv)
        return h_encText
    
    #获得第二个参数：encSecKey
    def get_encSecKey(self):
        encSecKey = "257348aecb5e556c066de214e531faadd1c55d814f9be95fd06d6bff9f4c7a41f831f6394d5a3fd2e3881736d94a02ca919d952872e7d0a50ebfa1769a7a62d512f5f1ca21aec60bc3819a9c3ffca5eca9a0dba6d6f7249b06f5965ecfff3695b54e1c28f3f624750ed39e7de08fc8493242e26dbc4484a01c76f739e135637c"
        return encSecKey
        
    #解密过程
    def AES_encrypt(self, text, key, iv):
        pad = 16 - len(text) % 16
        text = text + pad * chr(pad)
        encryptor = AES.new(key, AES.MODE_CBC, iv)
        encrypt_text = encryptor.encrypt(text)
        encrypt_text = base64.b64encode(encrypt_text)
        return encrypt_text
    
    #获取评论的json数据
    def get_json(self, url, params, encSecKey):
        datas = {"params": params, "encSecKey": encSecKey}
        response = requests.post(url, headers=self.headers, data=datas)
        return response.content

对原来的代码进行了简单的修改，难免会有错误，但是获得数据是争取的，也可以抓取评论，但是不知为什么经常会遇到抓取到好多页之后会自动停掉，具体的代码没有放，自己摸索一下还是好的！

源码：https://github.com/JustDD/NeteaseMusicSpider.git，里面还有参考实例，参考的地址忘了在哪里了，如果原作者看到，还请联系我，定表明出处。

高雅的地瓜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于利用Python无法直接抓取全部网易云音乐评论时怎么解决

网易云音乐的走红跟其丰富的评论有着分不开的关系我们跳过爬取歌名、歌词、精彩评论的部分，直接讲为什么无法利用普通的方法爬取多页的评论这是某一首歌的第一页的评论，每一页共有20条评论，每条评论包含评论者的头像、昵称、评论内容、评论时间，因此我们先按照日常的爬取方式查看该页面的元素但是如果直接以这种方式爬取，获取到的竟然不是我们想要的内容，而是一串乱码（具体我不知道，因为我是
复制链接

扫一扫

专栏目录