Python对B站弹幕爬取统计+词云可视化

2 篇文章 0 订阅
1 篇文章 0 订阅

一、获取视频oid值

第一步,找到想要爬取的视频页面,按F12进入开发者模式
在这里插入图片描述
第二步,在Network中搜索oid,并按F5进行页面刷新,获得视频的oid值
在这里插入图片描述

二、输入代码

import requests as rq
import re
import wordcloud
from imageio import imread
#获取弹幕信息#
def host_url(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
    }
    get_page=rq.get(url,headers=headers)
    html_doc = get_page.content.decode('utf-8')
    #采用正则书写可以录入纯符号弹幕,如 ????? 等#
    dm_select = re.compile("<d.*?>(.*?)</d>")
    dm_info=dm_select.findall(html_doc)
    return dm_info

oid=input('请输入你要分析的视频oid:')
#输入图片全称,如 123.jpg #
fig_info=input('请输入你要选择的背景图全称:')
mk=imread(fig_info)
url_num='https://api.bilibili.com/x/v1/dm/list.so?oid={}'.format(oid)
dm_total_info=host_url(url_num)
txt=" ".join(dm_total_info)
#词云背景图的设置#
w=wordcloud.WordCloud( font_path='msyh.ttc',\
                       width=1000,height=700,\
                       mask=mk,background_color='white')
w.generate(txt)
#输出图片#
w.to_file('wordcl.jpg')

新手小白,请多多指教!

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值