1.1爬取酷狗top500的数据
1.1.1思路分析
(1)本次爬取得内容为酷狗Top500得音乐信息
(2)网页版酷狗不能手动翻页,但是观察第一页URL https://www.kugou.com/yy/rank/home/1-8888.html?from=rank我们可以尝试着把1换成2,再进行浏览,恰好返回的就是第二页的信息。我们接着尝试其他数字,就会发现不同的数字就是不同的页面,这样我们就找到了URL的规律。由于每页显示22首歌曲,所以总共需要23页
(3)我们要爬取的有排名、歌手、歌曲名、歌词。
import requests
from bs4 import BeautifulSoup
import time
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleW