python爬取b站弹幕分析_B站弹幕爬取原理解析(python)

最新推荐文章于 2024-04-26 11:50:18 发布

weixin_39678493

最新推荐文章于 2024-04-26 11:50:18 发布

阅读量508

点赞数 1

文章标签： python爬取b站弹幕分析

感谢

原理

概念

cid : 爬取弹幕需要的id号，可以由BV号通过API接口获得

步骤BV转cid

浏览器输入：https://api.bilibili.com/x/player/pagelist?bvid=BV1x54y1e7zf&jsonp=jsonp

cid=226204073由cid得到当日条数小于1000的弹幕

浏览器输入https://api.bilibili.com/x/v1/dm/list.so?oid=226204073

得到了今日的1000条以内的弹幕(如果爆款视频，此页面的弹幕跟实际页面有出入)

该页面为XML格式，python可通过xmltodict库解析XML格式，在提取出来相应的弹幕文字，就可以进行词频分析，得到词云。

代码

BV号转cid函数

def CIDget(bvid):#获取视频cid

url = "https://api.bilibili.com/x/player/pagelist?bvid="+str(bvid)+"&jsonp=jsonp"

response = requests.get(url)

dirt=json.loads(response.text)

cid=dirt['data'][0]['cid']

#cid号已得到

nowDMget(cid) #调用爬取弹幕函数

爬取当前的弹幕函数

def nowDMget(cid): #获取今天的弹幕

url = "https://api.bilibili.com/x/v1/dm/list.so?oid="+str(cid)

response = requests.get(url)

response.encoding = 'utf-8'

data = parse(response.text) # 解析xml为有序字典

liat_DM=data['i']['d']

print(len( liat_DM))

for i in range(len( liat_DM)):

print(liat_DM[i]['#text'])

得到弹幕

保存到txt文件，就可以

词云分析的高频弹幕词汇

第一：冲冲冲

第二：全体

由此可见，大家都极度的支持《黑神话：悟空》，冲冲冲！！！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39678493

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬取bilibili数据_用 Python 抓取 bilibili 弹幕并分析！

weixin_39822147的博客

11-21

746

时隔一年，嵩哥带来他的新作《雨幕》。他依旧认真创作，追求高品质，作品在发表之前已听了五百遍以上。如此高品质的音乐，大家如何评价呢？通过哔哩哔哩上的视频弹幕，感受一下。01 实现思路首先，利用哔哩哔哩的弹幕接口，把数据保存到本地。接着，对数据进行分词。最后，做了评论的可视化。02 弹幕数据平常我们在看视频时，弹幕是出现在视频上的。实际上在网页中，弹幕是被隐藏在源代码中，以XML的数据格式进行加载的。...

python爬取b站弹幕分析_B站直播弹幕获取 - 用python写一个B站弹幕姬吧

weixin_39652869的博客

11-24

1213

前言关于这个小项目的由来。最开始是想要利用b站的弹幕进行一些互动之类的。原本也有想过可以利用现有的弹幕姬做个插件来解决的，但无奈不会C#，所以只能自己研究b站的弹幕协议。后来有写过一个C++版本的，不过有一些小问题，这在后文中会提到。开码一丶利用 POST 方式获取 B 站直播弹幕参考：【python】b站直播弹幕获取首先，随便打开一个b站的直播页面，按F12打开控制台，点进“网络（Network...

参与评论您还未登录，请先登录后发表或查看评论

python爬取b站弹幕并进行数据分析_在B站外，我用Python数据分析看到了另一批“后浪”...

weixin_39607798的博客

11-24

366

相信大部分人都看过了小破站献给新一代的演讲（商业片）。习惯性地打开了微博和知乎，想看一下别人的看法，想知道我是不是有些颓废而与这个社会格格不入？当我打开了微博和知乎，我才发现《后浪》翻车了，原来我们都一样，都很难再感受到《后浪》中的激情和理想。在这里看着大家的评论和回答，就好像在看着自己过得生活，评论和回答太多，所以就直接爬了下来，然后上班的时候慢慢地看。爬取的地址分别为：知乎回答：如何评价 B ...

python爬取b站弹幕并进行数据分析_【Python3爬虫】我爬取了七万条弹幕，看看RNG和SKT打得怎么样...

weixin_39773447的博客

11-24

842

一、写在前面直播行业已经火热几年了，几个大平台也有了各自独特的“弹幕文化”，不过现在很多平台直播比赛时的弹幕都基本没法看的，主要是因为网络上的喷子还是挺多的，尤其是在观看比赛的时候，很多弹幕不是喷选手就是喷战队，如果看了这种弹幕，真是让比赛减分不少。但和别的平台比起来，B 站的弹幕会好一些。正好现在是英雄联盟的世界总决赛时间，也有不少人选择在 B 站看比赛直播，那么大家在看直播的时候会发什么弹幕呢...

python分析b站_用 Python 抓取 bilibili 弹幕并分析！

weixin_39611382的博客

01-29

752

python爬取b站弹幕分析_Python爬取分析B站动漫《柯南》弹幕，从数据中分析接下来的剧情...

weixin_39706561的博客

11-23

2186

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：栗科技一、爬取介绍利用Chrome浏览器抓包可知，B站的弹幕文件以XML文档式进行储存，如下所示(共三千条实时弹幕)其URL为：http://comment.bilibili.com/183362119.xml数字183362119则代表该视频专属ID，通过改变数字即可得...

python爬取bilibili弹幕_用Python爬取B站视频弹幕

weixin_39854923的博客

11-24

1647

原标题：用Python爬取B站视频弹幕via：菜J学Python众所周知，弹幕，即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕，于我而言，弹幕是视频内容的良好补充，是一个组织良好的评论序列。通过分析弹幕，我们可以快速洞察广大观众对于视频的看法。下面是通过一个关于《八佰》的视频弹幕数据，绘制了如下词云图，感觉效果还是可以的。海量的弹幕数据不仅可以绘制此类词云图，还可以调...

python 爬取直播弹幕视频_Python爬取b站任意up主所有视频弹幕

weixin_39816062的博客

11-20

289

爬取b站弹幕并不困难。要得到up主所有视频弹幕，我们首先进入up主视频页面，即https://space.bilibili.com/id号/video这个页面。按F12打开开发者菜单，刷新一下，在network的xhr文件中有一个getSubmitVideo文件，这个文件里就有我们需要的视频av号了。如果直接抓取页面是拿不到的，因为视频是异步加载的。在这个文件里的data标签下，有一个count是...

python爬取b站弹幕并进行数据可视化

最新发布

Not__Cry的博客

04-26

663

Python爬虫&B站弹幕逆向&B站弹幕采集&B站弹幕解析

python爬虫实践-B站弹幕分析

qq_45886782的博客

10-19

3199

系列文章目录提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言目录主程序模块main（）函数1.访问弹幕数据2.对弹幕数据进行解析3.保存到doc文件总结前言在前两次的晋江小说和腾讯弹幕爬取基础上，我逐渐觉得自己掌握了这门技术的奥义？于是迫不及待地又对准了我的下一个目标——B站。为什么是B站？作为弹幕文化的大本营，必须是B站，B站的大部分有趣都来自于弹幕。目录与前两个爬虫实践如出一辙，都是一个主函数作为程序入口，并调用子函数。其它几个def定义的

基于python的b站直播间弹幕关键词提取和情感分析

qq_53935615的博客

07-05

5835

本项目旨在通过使用Python编程语言，爬取B站哔哩哔哩英雄联盟赛事直播间的部分弹幕，并对这些弹幕进行分析。通过关键词统计、生成词云以及情感分析等技术手段，将弹幕中的信息提取出来并进行可视化展示，以帮助用户深入了解B站直播弹幕的特征和情感倾向。以下是项目的主要功能：弹幕爬取: 使用Python的网络爬虫技术，从B站直播间中获取部分弹幕数据。通过与B站弹幕服务器进行交互，获取直播间中的实时弹幕信息，并存储为文本文件用于后续分析。

【python爬虫专项（25）】新型冠状病毒肺炎B站视频弹幕数据爬并做数据词云展示

lys_828的博客

02-14

1789

1、查看要爬取页面打开B站网址，输入“新型冠状病毒肺炎”关键字，显示界面如下： 2、确定爬虫逻辑查看网页的内容后，一个网址页面下20个视频，这里只采集20页的视频数据（共400个视频），因为是出现的视频按照点击量进行排序的，所以再往后的视频爬取意义就不大了，因此基本爬虫逻辑如下：【分页网址的url采集】——> 【单个视频url的采集】——> 【进入视频播放页面获取数据信息】——...

用 Python 抓取 bilibili 弹幕并分析！

爱编程的鱼的博客

01-04

3090

然后，再利用xpath简单的解析xml，就可以把所有的弹幕信息汇总到一个列表里了。最后，把列表转化成dataframe，保存到本地。实际上在网页中，弹幕是被隐藏在源代码中，以XML的数据格式进行加载的。只要找到你想要的视频cid，替换这个url就可以爬取所有弹幕了（b站大部分网页给出的字幕限制是1000条）。首先，利用哔哩哔哩的弹幕接口，把数据保存到本地。最后，做了评论的可视化。有了数据的接口链接，我们就可以利用request模块，获取数据了。通过创建词云对象、设置词云参数，最终生成图片，保存到本地。

python爬取b站弹幕分析_Python 爬取「后浪」弹幕，看看大家都在说什么

weixin_39669761的博客

11-24

238

前天，正好是五四青年节， B 站的一条献给年轻人的视频「后浪」火了，一时间到处都是各种讨论「后浪」的声音。其他的平台先不管，先看看 B 站平台本身用户对「后浪」的评价。B 站的评论是弹幕的形式，想要知道 B 站用户的评价，就是要对弹幕做一次分析。接下来的事情就简单了，打开 B 站，分析一波请求，然后把弹幕的数据抓取下来，最后做个简单的分析。整个事情就是这么的朴实无华。分析的过程就不演示了，直接从关...

python爬取b站弹幕

04-02

以下是使用Python爬取B站弹幕的基本步骤： 1. 确定目标视频的av号或BV号，例如：https://www.bilibili.com/video/BV1ib411v7uV 2. 打开Chrome浏览器，进入目标视频页面，按下F12键，打开开发者工具。 3. 点击“Network”选项卡，刷新页面，找到“弹幕”请求，记录下请求的URL和参数。 4. 使用Python的requests库发送HTTP请求，获取弹幕数据。 5. 对弹幕数据进行解析，提取出所需信息。 6. 可以使用Python的Pandas库将数据保存为CSV文件。下面是一段示例代码： ```python import requests import pandas as pd import xml.etree.ElementTree as ET # 目标视频的BV号 bv = 'BV1ib411v7uV' # 弹幕API的URL url = f'https://api.bilibili.com/x/v1/dm/list.so?oid={bv}' # 发送HTTP请求，获取弹幕数据 response = requests.get(url) xml_data = response.content.decode('utf-8') # 解析XML数据，提取弹幕信息 root = ET.fromstring(xml_data) danmu_list = [] for d in root.iter('d'): p = d.attrib['p'].split(',') danmu_list.append({ 'time': float(p[0]), 'mode': int(p[1]), 'fontsize': int(p[2]), 'color': int(p[3]), 'timestamp': int(p[4]), 'sender_id': int(p[5]), 'row_id': int(p[6]), 'danmu_id': int(d.attrib['id']), 'content': d.text }) # 将弹幕数据保存为CSV文件 df = pd.DataFrame(danmu_list) df.to_csv(f'{bv}.csv') ``` 注意：使用上述代码爬取B站弹幕需要遵守相关法律法规和B站的规定，不得用于商业用途。