爬取酷狗TOP500的数据

最新推荐文章于 2023-01-19 11:24:45 发布

JingleLee123

最新推荐文章于 2023-01-19 11:24:45 发布

阅读量1.4k

点赞数 2

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/qq_38195197/article/details/103472443

版权

网络爬虫专栏收录该内容

11 篇文章 1 订阅

订阅专栏

题目和代码

爬取https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 排名情况、歌手、歌曲名和歌曲时间。

import requests
from bs4 import BeautifulSoup
import time
import pandas as pd

def get_links():
    links_list = []
    for i in range(1, 24):
        link = "https://www.kugou.com/yy/rank/home/" + str(i) + "-8888.html?from=rank"
        get_info(link)
        time.sleep(1)
        
def get_info(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
              'referer': url}
    res = requests.get(url, headers=headers)
    soup = BeautifulSoup(res.text, 'lxml')
    ranks = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > span.pc_temp_num')
    singers_songs = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > a')
    durations = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > span.pc_temp_tips_r > span')
    for r, s, d in zip(ranks, singers_songs, durations):
        rank = r.get_text().strip()
        singer_song = s.get("title").split("-")
        singer = singer_song[0]
        song = singer_song[1]
        duration = d.get_text().strip()
        info_df.loc[rank] = [singer, song, duration]
               
    
if __name__ == "__main__":
    info_df = pd.DataFrame(columns = ['singer', 'song', 'duration'])
    get_links()
    print(info_df)
    info_df.to_excel("kugou_top500.xlsx")

       singer         song duration
1         海伦          桥边姑娘     3:03
2      要不要买菜            下山     2:53
3         阿冗          你的答案     3:39
4        张韶涵           欧若拉     4:22
5         en            嚣张     4:14
..        ...          ...      ...
496   BEYOND          真的爱你     4:37
497      刘德华           17岁     4:00
498      张敬轩         只是太爱你     4:14
499  尹毓恪、宋祖儿    欧若拉 (Live)     3:44
500      陈奕迅      陪你度过漫长岁月     4:02

[500 rows x 3 columns]

代码分析

getlinks()函数，拼接了23个url，即Top500音乐所在的所有网页的url。
用拼接好的url去调用get_info(url)函数，获得每个网页的内容。
每调用一次get_info(url)后，用time.sleep(1)让程序暂停1秒，防止请求网页频率过快而导致爬虫失败。
注意获得排名时，不能使用ranks = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > span.pc_temp_num > strong')，因为只有前三首歌加了红色强调标记。
使用singer_song = s.get("title").split("-")分割字符串，得到歌手和歌名
info_df.to_excel("kugou_top500.xlsx")，将爬取内容保存到kugou_top500.xlsx文件中
构造多页URL:
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format (str(i)) for i in range(1, 24)]

JingleLee123

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
爬取酷狗TOP500的数据

题目和代码爬取https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 排名情况、歌手、歌曲名和歌曲时间。import requestsfrom bs4 import BeautifulSoupimport timeimport pandas as pddef get_links(): links_list = []...
复制链接

扫一扫

专栏目录