爬取网易云音乐评论2

最新推荐文章于 2024-06-24 11:18:31 发布

wangjiawei0227

最新推荐文章于 2024-06-24 11:18:31 发布

阅读量1.6k

点赞数 2

分类专栏：爬虫文章标签： python 云音乐网易爬虫

本文链接：https://blog.csdn.net/wangjiawei0227/article/details/73741371

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Intro

前一阵子写了个爬取网易云音乐评论的python程序
但是只是完成了一个开端，最近抽空稍微完善了一下

先看一下整体流程

获取要爬取的歌手的ID
通过ID获取这个歌手的所有专辑ID
通过专辑获取歌手的所有歌曲
歌曲间一个一个的通过爬虫进行爬取

Problem

这里面存在几个问题

怎么判断一个歌曲或者一张专辑已经爬过了
怎么保证爬取的效率
怎样防止网易的反爬虫机制

Solution1

目前只解决了第一个问题，我的方法是先生成一个Task表，将任务以及任务的进度存储在Task表中，每次重新运行的时候先从Task表中读取进度，然后再进行爬取操作。

TaskSchedule.json

[{
    "id": "35520072",
    "isCrawler": 1,
    "musicId": "2116",
    "name": "\u653e &amp; \u62ab\u98ce",
    "songs": [{
        "album": "35520072",
        "isCrawler": 1,
        "id": "478731242",
        "name": "\u653e",
        "offset": "-1"
    }, {
        "album": "35520072",
        "isCrawler": 0,
        "id": "478736172",
        "name": "\u62ab\u98ce",
        "offset": "530"
    }]
}, {...}]

如上形成json格式的一个文件，将专辑ID和是否爬取存入，offset代表这首歌爬取到了第几个评论，每次爬取完通知爬取者取更新这张表（通过调用trigger方法）

def trigger(self,musicId,offset):
    isOk = False
    albumList = self.load()
    for album in albumList:
        if isOk:
            break

        if album["isCrawler"] == 1:
            continue
        for song in album["songs"]:
            if song["id"] == musicId:
                if offset == -1:
                    song["isCrawler"] = 1
                    for song in album["songs"]:
                        isCrawler = 1
                        if song["isCrawler"] == 0:
                            isCrawler = 0
                            break
                    album["isCrawler"] = isCrawler
                else:
                    song["offset"] = offset
                isOk = True
                logger.critical("%s has fininsh with %s"%(str(musicId),str(offset)))
                break

    self.store(albumList)