前言
学习完requests库与beautifulsoup这个库后,我们就可来搞一个简单的爬虫了,这次我们爬取酷狗音乐的TOP500的歌曲信息,包含排名,歌名,歌曲时长。分分钟爬取下来。
分析URL链接
http://www.kugou.com/yy/rank/home/1-8888.html , 这个是酷狗TOP500歌曲信息页面,我们发现这里并不能翻页,一页只能显示,22首歌曲,如果我们直接用这个链接就只能爬取这一页的22首歌曲的信息。所以我们要想办法。
观察这个链接,看到这个1-8888.html 我们只需要修改这个1就可以实现换页,例如把1修改成2:http://www.kugou.com/yy/rank/home/2-8888.html, 他就可显示下一页的歌曲信息,计算一下,每页22首,共有500 ,可以算出一共有23页,也就是23个URL
分析网页结构
分析网页这个需要了解点html的基础知识,我们先将第一页的歌曲信息弄下来
http://www.kugou.com/yy/rank/home/1-8888.html, 打开链接 审查元素 点击 酷狗TOP500ÿ