Python爬取QQ音乐内地专辑

最新推荐文章于 2024-07-12 16:42:46 发布

Heibaiii

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量2.3k

点赞数 4

文章标签： python 爬虫 QQ音乐

本文链接：https://blog.csdn.net/Heibaiii/article/details/78974025

版权

本文介绍如何使用Python进行QQ音乐内地专辑的爬取，涉及Chrome网页分析、网络请求、请求头伪造及数据库存储等内容。通过分析网页结构找到关键URL，利用Pycharm和Anaconda中的库实现数据抓取。尽管遇到eval转换字典的语法错误，但最终成功完成部分数据爬取。未涉及歌曲下载地址，期待进一步完善。

摘要由CSDN通过智能技术生成

好久没写博客，中间玩了两天基于python的web开发，然继续学爬虫了，花三天做了一个小练习，爬取qq音乐所有的内地专辑内容

用到的工具：Chrome、Pycharm社区版、Anaconda

Pycharm建立py文件后，引入anaconda的库，具体怎么引入，在这篇博文我有细说：爬取应用宝首页、应用分类、应用以及应用详情

我这次有写将数据存入数据库的操作，但是因为只是写着练手，我也没爬完，所以使用数据库的细节我就不说了，大家想了解的话可以在网上搜一下教程，我用的数据库是postgresql，操作工具是DBeaver

先做网页分析，其实我开始大部分时间是在找url…
用Chrome打开QQ音乐的网页，单击鼠标右键选择：检查
（Ctrl + Shift + C 也能打开）
选择Network，因为QQ音乐的网站是异步加载的，再选择JS，重新加载网页，我们可以看到这些
这里写图片描述

然后点击Preview，一个个看下去，发现了它！
这里写图片描述
里面有我们在网页上看到的一些选项，说明我们要找的这个界面的url就是它了

点击Header
这里写图片描述
https://u.y.qq.com/cgi-bin/musicu.fcg，这就是我们要的

我们还需要用这里面的Request Headers里的数据伪造一下请求头，并将Query String Parameter里的数据加入params参数中

如图
这里写图片描述
header中一定要有referer参数！！！不然服务器会给你返回空值！！！

后面的专辑，歌曲那些url我们也可以按照这个方法一一找到。

这里提一下最后的src的找法，如图

复制我标记的URL，跳转
这里写图片描述
被标记的部分就是我找到的src
要从字典中找出这个values，我们弄到它的key，其实这个key用的就是每首歌的id

所以我们收集到歌曲数据那一步的时候，记得一定要采集歌曲id，到最后一步可以用来取每首歌的src

我觉得这种网站就是分析网站费时间，分析好了代码就好写了、

下面就给你们见识一下我写的BUG!!!

import requests
import time
from sqlalchemy import create_engine,MetaData#引入数据库引擎create_engine以及引入MetaData来创建表格
from sqlalchemy.orm import sessionmaker#引入sessionmaker（用来创建数据工厂）
from sqlalchemy import Table,Column,Text,String,DateTime#引入我们需要用到的属性
from sqlalchemy.sql import insert#引入插入语句



#创建一个数据库引擎，调用create_engin方法，连接postgresql数据库，用户名为postgres，密码为123456，储存地址为本地存储，端口为5432数据库名为postgres
engine = create_engine('postgresql://post

最低0.47元/天解锁文章

Heibaiii

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Python爬取QQ音乐内地专辑

好久没写博客，中间玩了两天基于python的web开发，然继续学爬虫了，花三天做了一个小练习，爬取qq音乐所有的内地专辑内容用到的工具：Chrome、Pycharm社区版、AnacondaPycharm建立py文件后，引入anaconda的库，具体怎么引入，在这篇博文我有细说：爬取应用宝首页、应用分类、应用以及应用详情我这次有写将数据存入数据库的操作，但是因为只是写着练手，我也没爬完，
复制链接

扫一扫