Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!(1)

作者: CDA数据分析师

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


今天我就用Python爬一爬虾米音乐,半分析半安利地给大家介绍一下这个充满有趣灵魂的组合。

数据获取


本次爬虫主要目的是爬取五月天所有歌曲的信息,信息维度当然是越多越好啦。

直接搜索关键词“五月天”,可能会出现歌名是“五月天”的信息,或者别人翻唱“cover五月天”的内容,搜索范围变大,多抓取了不少无用信息。

所以我以“五月天-艺人-专辑信息-歌曲id-歌曲详情”这个路径进行数据爬取。我发现,无论是专辑信息、歌曲list还是歌曲详情,都存在于非常漂亮的JSON格式里面:

在这里插入图片描述

本来可以美滋滋“唰唰唰”地批量下载。但是!URL里面有一个s的参数,我暂时找不到变化的规律(摔!)因为赶时间,就另辟蹊径,用相对麻烦一点的beautiful soup库来解析网页源代码的内容,过程很坎坷,这就是我为什么五月天大电影上映凌晨还在写这篇文章的原因……

而且,爬虫的时候我还遇到两个坑:

1.两天前能运行的代码,在今天居然解析不到所需的内容了,因为爬取的东西内容格式发生了很大变化。难道是我正巧赶上了他们内部修改源代码的节点嘛?无从查证。

2.两天前还在显示的歌曲详情(播放量和收藏量),今天一看全都变成0了,每首歌都这样。我让别的朋友用其他电脑查看,也是没信息的。“检查”了一下,Play Count这些参数直接变成Null了…?

最后得到三个文件,分别是专辑信息(50张)、歌曲列表(620首)和歌曲详情(620首),主要是通过专辑字符和歌曲id进行相关联,具体字段如下:

  • 专辑信息(专辑种类、ID、封面、名字、艺术家、收藏数、语言、播放数、推荐数、歌曲数量、专辑字符、评分、评分人数、发布时间)

  • 歌曲列表(专辑名字、歌曲名字、ID、时长、播放量)

  • 歌曲详情(歌曲名字、别名、歌曲ID、时长、播放次数、作词、作曲、编曲、专辑名字、歌词、热门第一条评论、评论点赞数)

数据清洗


国际惯例:Excel画图表+Python画词云,(自认为)简单粗暴又高效。

在这里插入图片描述

截止目前在虾米音乐平台关于五月天的一共有50张专辑,其中“正正经经”的专辑有9张(“录音室专辑”),“单曲”类专辑有20张,歌曲数量在1到6首不等。

判断作品的优劣,最明显快速的方式就是查看大众对其的评分,我们来瞧瞧这50张专辑的评分分布👇:

在这里插入图片描述

可以看到,将近一半的的专辑评分在9.8-10.0之间,只有3张专辑评分没超过9分。说明大众对其认可度还是相当高的。

五月天曾说过只会出10张专辑,随着2016年《自传》的发布,现在已经有9张跟大家见面啦。我们先看看这9张的数据情况。

在这里插入图片描述

按照发布时间顺序排列:

在这里插入图片描述

根据专辑信息里面的歌曲ID(字符串形式和数字形式皆可),我们可以顺藤摸瓜爬取歌曲的信息,一共得到620首,除去没歌词的纯音乐歌曲55首,还剩565首。

在这里插入图片描述

再看看播放数量TOP20的歌曲:

在这里插入图片描述

我们从歌曲的创作内容来看看五月天的歌到底有什么特点。

每首歌都要经历作词、作曲和编曲的过程。在这177首歌里面,主唱阿信参加了139次作词、100次作曲,我说一句阿信是创作小王子没人反对吧!

编曲方面,68%的歌曲都是由五月天整个团队完成的,还有31首歌是有其他人参与合作的,合作次数最高的是周恒毅(8次)。

在这里插入图片描述

代码部分


xiamisongs(歌曲清单).py

import requests

from bs4 import BeautifulSoup

import time

import pandas as pd

import random

songName=[]

songId=[]

albumName=[]

duration=[]

playCount=[]

df=pd.read_excel(‘五月天专辑信息.xlsx’)

albumString=df[‘专辑字符’]

headers={

‘Connection’: ‘keep-alive’,

‘Cookie’:‘’,

‘User-Agent’: ‘’

}

url=‘https://www.xiami.com/album/{}’

for albumId in albumString[13:]:

print(‘正在爬取{}’.format(albumId))

full_url=url.format(albumId)

res = requests.get(full_url, headers=headers)

soup=BeautifulSoup(res.text,‘html.parser’)

#歌曲名字,专辑名字

sn=soup.select(‘.song-name’)

for i in range(len(sn)):

songName.append(sn[i].text)

albumName.append(soup.select(‘.album-name’)[0].text)

#歌曲id

for item in sn:

a=item.find_all(‘a’)

for m in a:

songId.append(m.get(‘href’)[6:])

#时长

d=soup.select(‘.duration’)

for i in range(len(d)):

duration.append(d[i].text)

pc=soup.select(‘.playCount-container’)

for p in range(len(pc)):

playCount.append(pc[p].text)

time.sleep(random.random()*3+1)

print(‘爬取成功啦!’)

result={‘专辑名字’:albumName,‘歌曲名字’:songName,‘歌曲ID’:songId,‘歌曲时长’:duration,‘播放量’:playCount}

results=pd.DataFrame(result)

results.info()

results.to_excel(‘五月天歌曲清单.xlsx’)

xiami(专辑信息).py

import requests

from bs4 import BeautifulSoup

import csv

import time

import datetime

import pandas as pd

albumCategory=[]

albumId=[]

albumLogo=[]

albumName=[]

artistName=[]

collects=[]

language=[]

playCount=[]

recommends=[]

songCount=[]

albumStringId=[]

albumStatus=[]

gmtPublish=[]

grade=[]

gradeCount=[]

url=‘https://www.xiami.com/api/album/getArtistAlbums?_q=%7B%22pagingVO%22:%7B%22page%22:1,%22pageSize%22:60%7D,%22artistId%22:3110,%22category%22:0%7D&_s=dd6d0ef72dda69944fc2fbaa33c5bc6c’

headers={

‘Connection’: ‘keep-alive’,

‘Cookie’:‘’,

‘User-Agent’: ‘Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1’

}

res = requests.get(url, headers=headers)

content=json.loads(res.text,encoding=‘utf-8’)

for album in content[‘result’][‘data’][‘albums’]:

albumCategory.append(album[‘albumCategory’])

albumId.append(album[‘albumId’])

albumLogo.append(album[‘albumLogo’])

albumName.append(album[‘albumName’])

artistName.append(album[‘artistName’])

collects.append(album[‘collects’])

language.append(album[‘language’])

playCount.append(album[‘playCount’])

recommends.append(album[‘recommends’])

songCount.append(album[‘songCount’])

albumStringId.append(album[‘albumStringId’])

albumStatus.append(album[‘albumStatus’])

gmtPublish.append(datetime.datetime.fromtimestamp(int(album[‘gmtPublish’]/1000)))

grade.append(album[‘grade’])

gradeCount.append(album[‘gradeCount’])

result={‘专辑种类’:albumCategory,‘专辑id’:albumId,‘专辑封面’:albumLogo,‘专辑名字’:albumName,‘艺术家’:artistName,‘收藏’:collects,‘语言’:language,‘播放数’:playCount,‘推荐’:recommends,‘歌曲数量’:songCount,‘专辑字符’:albumStringId,‘状态’:albumStatus,‘评分’:grade,‘评分人数’:gradeCount,‘发布时间’:gmtPublish}

results=pd.DataFrame(result)
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)

74109125)]

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值