Python爬取QQ音乐单曲
爬虫步骤
1.爬虫准备
python安装了request模块,Chrome浏览器,明确目标,本次爬取的是QQ音乐《你不要担心》的前十页评论及对应的用户。
2.爬虫分析
首先我们打开 (QQ音乐网页),然后搜索 你不要担心,点击第一个结果进入歌曲的详情页(你不要担心——李迪),歌曲评论在详情页下方。然后我们打开 QQ 音乐的 robots.txt,看看是否禁止我们爬取,内容如下:
看上去只是禁止爬取 playlist 相关的信息,我们爬取歌曲评论应该问题不大。
点击 Network 中的 XHR 过滤其他类型的请求,得到我们想要的API链接。
评论数据就在 comment 下的 commentlist 中,commentlist 中的每一项都有 nick、avatarurl、rootcommentcontent等数据。我们可以确认评论的数据就是通过它获取的。
3.编写代码
import requests
import time
#请求头
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
}
lasthotcommentid = ''