爬取B站弹幕生成词云

本文介绍如何使用Python爬取B站视频的弹幕内容,并进一步生成词云图,展示弹幕关键词的分布情况。
摘要由CSDN通过智能技术生成

一、爬取弹幕

import requests
import json
import re

#下载页面
def download_page(url):
    headers = {
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }
    res = requests.get(url,headers)
    return res

#根据av号获取cid
def get_cid(av):
    """
    :param av:B站视频的av号 如:https://www.bilibili.com/video/av95811021
    :return:cid
    """
    av = av.strip('av')
    url = f'https://api.bilibili.com/x/player/pagelist?aid={av}&jsonp=jsonpa'
    res = download_page(url)
    res_text = res.text
    res_dict = json.loads(res_text)
    cid = res_dict['data'][0]['cid']
    return cid


#根据cid请求弹幕
def get_danmu(cid):
    """
    :param cid: 获取弹幕所需的id
    :return: 弹幕列表
    """
    url = f'https://api.bilibili.com/x/v1/dm/list.so?oid={cid}'
    res = download_page(url)
    res_xml = res.content.decode('utf-8')
    pattern = re.compile('<d.*?>(.*?)</d>')
    danmu_list = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值