python3 爬取网易云音乐的热评

最新推荐文章于 2023-11-29 20:46:15 发布

几面

最新推荐文章于 2023-11-29 20:46:15 发布

阅读量923

点赞数 3

分类专栏： python 文章标签： python3 爬取网易云音乐评论

本文链接：https://blog.csdn.net/qq_34178990/article/details/83047364

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

最近对网络爬虫有点感兴趣，就简单的学习了一下python。，并打算以爬取网易云音乐热评作为一个小项目练习。

思路

爬虫的思路其实很简单，就是像浏览器一样发起一个请求，获取相应的数据，然后对获取的数据进行分析，获取到我们想要的数据。

本身也是第一次写爬虫，不能撸起袖子就干，还是需要去看看别人的经验。所以，我也看了几篇爬取网易云音乐的爬虫，链接。说白了就是跟着他们的博客写的。一下是步骤：

1，获取网易的url地址。

网易云音乐的网页使用iframe框架。其实一直以来我就很少使用irame，为此还特意的去重新学习了一下iframe。通过审查元素，发现iframe中的sre属性是空的。所以可以通过在网络面板中找到对应的url地址。并通过requests请求响应的数据。通过获取所有的<a src= 'song?id = '>这样的标签，可以获取当前歌单中所有歌曲id。有了id，就可以通过一个R_SO_4_id这个借口获取歌曲热评的数据。不过这个接口是一个post请求，需要携带两个参数: params和encSecKey。简单起见，所以我就直接复制了浏览器中的值直接传入（可以获取前面的15条热评数据，已经够了）。然后再通过requests发起post请求获取相应的数据即可。

编码

import requests
from bs4 import BeautifulSoup
import re

url2 = 'https://music.163.com/playlist?id=923652592' //这是歌单页面的url地址， 可以通过分析网络面板得出
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'}
r = requests.get(url2,  headers=headers)
r.encoding='utf-8'

html = r.text//请求得到的数据
soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')//使用beautifulSoup库， 将其变为DOM对象（可以自行查阅）。

aArr = soup.find_all('a', href=re.compile(r'^/song\?id=\d+$'))
urls = []
for item in range(len(aArr)):
    urls.append(aArr[item]['href'])

def getUrl (id ):
	prefix = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_'+id
    return  prefix
 
commentText = ''//评论内容
for index in range(len(urls)):
    print(index)
    id = (urls[index][9:])
    params = 'fNDXL/y4L+MnF++tzYwlZJC8DZo0cPhba4qb9E9w4hIUhEGPMKbdNXTuYobnaLCPu+VBNOattWN/FYu6SQZJvqJDzYnW0fIRuNgfkT5bW7mlpCJEG9vQbMTpbK0lVcZriqcK51ciH2fZkydEDqfhAH9WV/ubBAX2agf1T8LQyw7R1z91FWqs/GlJZqejjX0hAzhlyCpyhWOxtV/JWDpiy1Z5HO5BKrTRowGZkdv3H4g='
    encSecKey = '9678000fea3661975ccb0f0ac79f5c37d3a739dd8ca87bfb637e04dbe578e8f4125a1484f776e1d972d7d98e48e37de6b454dc1dadb4931016d817c2e722792c0e6a857df8071fb97d4a4b5e1994ba9a2611835c4d7cf7c408bb2881e4185917b41c8294803b1d2634cc0cb01e0542cba4e7e6245057cbc2eab518b359ce0da0'
    data = {
        'params': params,
        'encSecKey': encSecKey
    } 
    lr = requests.post(getUrl(id), data = data,  headers=headers)
    commentText = commentText + '\n\n' + lr.text
    
fs = open('./comment.json', 'w', encoding='utf-8')//写入文件中
fs.write(commentText)
fs.close()