受限于弹幕池的数量，没有办法可以爬取到B站更多的弹幕呢？

最新推荐文章于 2024-07-10 22:01:52 发布

松鼠爱吃饼干

最新推荐文章于 2024-07-10 22:01:52 发布

阅读量3.2k

点赞数 8

分类专栏：爬虫文章标签： python 爬虫

原文链接：https://mp.weixin.qq.com/s?src=11&timestamp=1606805473&ver=2739&signature=j3073SP*gtw0K8Qzq*Obft2wvZ28D*61AoXBrlXvgIxb61RdWLvyz2UUZ4IAvIMqUW5cS*DxCBopBbspRfZCSl6QJIGUgjIwrCiD-lPK2x*nO4ewZvOiHCAjuuIq9cQj&new=1

版权

爬虫专栏收录该内容

302 篇文章 128 订阅

订阅专栏

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章源于Python干货铺子，作者：不正经的kimol君

刚接触Python的新手、小白，可以复制下面的链接去免费观看Python的基础入门教学视频

https://v.douyu.com/author/y6AZ4jn9jwKW

前言

想必小破站大家都很熟悉叭，里面充满了各种神奇的视频，其中的「弹幕」成为了许多人的快乐源泉。关于它的爬虫也有很多，但大部分都受限于弹幕池的数量，只能爬取到其中很少一部分的弹幕。

那么，有没有办法可以爬取到B站更多的弹幕呢？

一、弹幕抓取（有数量限制）

首先，我们需要找到B站视频弹幕的接口，通过浏览器的F12调试工具抓包可以发现，其接口为：

https://api.bilibili.com/x/v1/dm/list.so?oid={oid/cid}

其实，除了这个接口之外，还有另外一个接口同样是可以获取到弹幕的：

https://comment.bilibili.com/{oid/cid}.xml

其中「oid」和「cid」是iB站给每个视频分配的一个id号，但是通常我们在浏览器地址看到的是「bvid」，因此需要做个转换：

这里相关的接口有很多，可以定义如下函数：

def get_cid(bvid):
    '''
    通过视频的bvid获得视频的cid
    输入：视频的bvid
    输出：视频的cid
    '''
    url = 'https://api.bilibili.com/x/player/pagelist?bvid=%s&jsonp=jsonp'%bvid
    res = requests.get(url)
    data = res.json()
    return data['data'][0]['cid']

有了「cid」之后，我们便可以通过刚才发现的弹幕接口爬取弹幕了，代码如下：

oid = get_cid(bvid) # 这里的cid和oid是一样的
url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=%d'%oid
res = requests.get(url)
res.encoding = 'utf-8'
text = res.text

注意:这里需要指定res的编码方式为utf-8，否则会出现乱码现象。

我们得到的请求为一个xml文件，其格式大致如下：

因此，需要将其中的信息提取出来，「p」标签对应的字段分别为：

那么，利用正则可以它们都提前出来：

def parse_dm(text):
    '''
    解析视频弹幕
    输入：视频弹幕的原数据
    输出：弹幕的解析结果
    '''
    result = [] # 用于存储解析结果
    data = re.findall('<d p="(.*?)">(.*?)</d>',text)
    for d in data:
        item = {} # 每条弹幕数据
        dm = d[0].split(',') # 弹幕的相关详细，如出现时间，用户等
        item['出现时间'] = float(dm[0])
        item['模式'] = int(dm[1])
        item['字号'] = int(dm[2])
        item['颜色'] = int(dm[3])
        item['评论时间'] = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(int(dm[4])))
        item['弹幕池'] = int(dm[5])
        item['用户ID'] = dm[6] # 并非真实用户ID，而是CRC32检验后的十六进制结果
        item['rowID'] = dm[7] # 弹幕在数据库中的ID，用于“历史弹幕”功能
        item['弹幕内容'] = d[1]
        result.append(item)    
    return result

通过解析requests的请求，便能得到相应的弹幕：

dms = parse_dm(text) # 解析弹幕

但是，这里受到弹幕池的限制，每次只能抓取一小部分，当弹幕数量很多时，显然这个办法行不通。

那么，我们得另寻它路了~

二、弹幕抓取（无数量限制）

通过分析，我们可以找到另外一个接口，用于获取每天的弹幕历史数据：

https://api.bilibili.com/x/v2/dm/history?type=1&oid={oid/cid}&date=xx-xx

「date」为日期，通过遍历日期便可获得更多的弹幕。需要注意的是，这个接口需要登陆，因此在请求的时候必须得加入cookies，可以定义如下函数：

def get_history(bvid,date): 
    '''
    获取视频历史弹幕
    输入：视频bvid,日期
    输出：视频某一日期开始的弹幕
    '''
    oid = get_cid(bvid)
    url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=%d&date=%s'%(oid,date)
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0',
               'Accept': '*/*',
               'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
               'Origin': 'https://www.bilibili.com',
               'Connection': 'keep-alive',
               'Referer': 'https://www.bilibili.com/video/BV1k54y1U79J',
               'TE': 'Trailers'}
    # 此接口需要登陆，因此需要cookies
    cookies = {}
    res = requests.get(url,headers=headers,cookies=cookies)
    res.encoding = 'utf-8'
    text = res.text
    dms = parse_dm(text) # 解析弹幕
    return dms

想要获得更多的弹幕，遍历每一天的弹幕数据即可，但是这样存在两个问题：「效率太低」、「数据重复」。因为，每次获取通常可以得到跨越几天的数据，所以我们无需每天都去访问，而是根据结果逐步往前推即可：

def get_dms(bvid):
    '''
    获取视频弹幕（此方法获取的弹幕数量更多）
    输入：视频的bvid
    输出：视频的弹幕
    '''
    print('视频解析中...')
    info = get_info(bvid)
    print('视频解析完成!')
    print('【视频标题】： %s\n【视频播放量】：%d\n【弹幕数量】：  %d\n【上传日期】：  %s'%(info[0],info[1],info[2],info[3]))
    dms = get_dm(bvid) # 存储弹幕
    if len(dms) >= info[2]: # 如果弹幕数量已抓满
        return dms
    else:
        dms = []
        date = time.strftime('%Y-%m-%d',time.localtime(time.time())) # 从今天开始
        while True:
            dm = get_history(bvid,date)
            dms.extend(dm)
            print('"%s"弹幕爬取完成!(%d条)'%(date,len(dm)))
            if len(dm) == 0: # 如果为空
                break
            end = dm[-1]['评论时间'].split()[0] # 取最后一条弹幕的日期
            if end == date: # 如果最后一条仍为当天，则往下推一天
                end = (datetime.datetime.strptime(end,'%Y-%m-%d')-datetime.timedelta(days=1)).strftime('%Y-%m-%d')
            if end == info[3]: # 如果已经到达上传那天
                break
            else:
                date = end
        dm = get_history(bvid,info[3]) # 避免忽略上传那天的部分数据
        dms.extend(dm)
        print('弹幕爬取完成!(共%d条)'%len(dms))
        print('数据去重中...')
        dms = del_repeat(dms,'rowID') # 按rowID给弹幕去重
        print('数据去重完成!(共%d条)'%len(dms))
        return dms

运行主函数：

if __name__ == '__main__':
    dms = get_dms('BV1HJ411L7DP')
    dms = pd.DataFrame(dms)
    dms.to_csv('一路向北.csv',index=False)

爬取过程如下：

可以看到，一共「11471条」弹幕，我们获取到了「11000条」，占比已经很高了，而且csv文件已经安静地躺在了我的电脑中，打开它：

至此，大功告成，舒坦了~~

松鼠爱吃饼干

关注

8
点赞
踩
27

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录