序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础。
用到知识点:
1、python3、urllib.request.openurl
2、json (json字符串解析为python对象)
3、python 文件操作,爬取到的信息写入txt文本。
4、list、dict相关操作、遍历,str字符截取。
5、字符编码相关utf-8
首先,我们要先分析要爬取的内容,我们要获取到的是歌单的歌曲和歌手信息,那么我们就是要想办法知道歌单下的歌曲信息在网页的那部分。
于是我们按F12切换浏览器到开发者模式,定位到歌曲名称:
歌曲名称在标签下的标签中,那我们获取到网页内容,用正则或者bs4解析出这部分就可以了。于是我们开始写代码。
歌单地址:https://y.qq.com/n/yqq/playlist/2069407274.html#&dirid=8
可是高兴得太早了,我们用python获取到的歌单网址的内容中,并没有找到歌曲的相关信息,也就是歌单网址返回的html代码并没有歌曲信息,那我们猜测就是通过js获取的了,于是,我们还是要分析请求网页的过程,浏览器F12,切换到网络模式,刷新网页