python文本挖掘与分析:歌曲《说散就散》网易云音乐平台用户评论分析

一、准备工作:

1.python3.x

2.编辑器pycharm

3.requests,json,os,base64,codecs,AES,pymysql(存入什么样的数据库就用什么,也可以不用数据库,直接存入txt文件)

import requests,json,os
import base64
import codecs
from Crypto.Cipher import AES
import pymysql#可加可不加

二、数据源:《说散就散》网易云音乐评论区,本文选取了jc和袁娅维两个版本的《说散就散》,爬取她们各自的评论进行文本分析产生词云图,两张词云图的对比就会发现一些秘密了。因为自从原唱登上好声音后,对于jc人们是越来越熟悉了,网上说原唱比翻唱好听,更有青春感,也有人说袁娅维唱的才最好听,到底答案是什么呢?我想大众的眼光总是没错的,我们可以知道这首歌火起来时我们大多数人并不知道是jc的原唱,所以作者想着对比分析一下各自的歌曲评论,看能发现出什么不。

1.网易云音乐网页分析:

url:https://music.163.com/#/song?id=468513829

直接查看网页源代码可知评论数据不在源代码中,这时选取fiddler来抓包分析,打开fiddler后点击评论的下一页就会出现评论所在的网址,看下图。fiddler抓包详解请看https://blog.csdn.net/han_cui/article/details/77337870,网上资料也有很多。

可以知道的是评论区的数据是以json的格式存储,20个为一组,进一步分析得post请求有两个参数需要一起传递过去才能访问该网址,由那些编码可知这是加过密的数据,这里就不说解密过程了,篇幅有限,也可以直接用这两个参数,但是其他页面就同样需要这样分析得出这两个参数。

2.分析完之后开始写代码:

下面为爬虫类,用于获取数据:

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值