python画名侦探柯南_Python实战爬B站 | 帮你梳理柯南主线剧情+弹幕

最新推荐文章于 2023-10-18 13:16:23 发布

weixin_39827306

最新推荐文章于 2023-10-18 13:16:23 发布

阅读量2.5k

点赞数

文章标签： python画名侦探柯南

本文通过Python爬取B站《名侦探柯南》的弹幕，分析主要人物讨论次数，揭示柯南变回新一的集数，并探讨主线剧情。利用正则提取CID，爬取弹幕XML文件，通过jieba分词和词云图展示人物形象和剧情热点。

摘要由CSDN通过智能技术生成

原标题：Python实战爬B站 | 帮你梳理柯南主线剧情+弹幕

文末扫海报二维码领【本文完整代码】

皖渝 | 作者

凹凸数据 | 来源

https://mp.weixin.qq.com/s/kVsQmTIh-okzH9WZRBC0FA

1

爬取介绍

利用Chrome浏览器抓包可知， B站的弹幕文件以XML文档式进行储存，如下所示(共三千条实时弹幕)

其URL为：

不难看出， CID则是对应着各个视频的ID，接下来用正则提取即可。

完整爬取代码记得添加【小数】领取哦~

最终的全部弹幕文件都在桌面的"柯南"文件下：

注：这里共爬取到980个弹幕文件。【B站的柯南自941集后就跳到994集(大会员才能观看的)。虽然目前更新到1032话，但并没有1032集内容，如下图所示】

2

弹幕可视化

1.主要人物讨论总次数分析

统计人数总次数

注： role.txt是主要人物名文件(需考虑到弹幕一般不会对人物的全名进行称呼，多数使用的是昵称，否则可能与实际情况相差较大。)

import jieba

import os

import pandas aspd

os. chdir( 'C:/Users/dell/Desktop')

jieba.load_userdict( 'role.txt')

role=[ i.replace( 'n', '') fori in open( 'role.txt', 'r',encoding= 'utf-8').readlines]

txt_all=os.listdir( './柯南/')

txt_all. sort(key=lambda x: int( x. split( '.')[ 0])) #按集数排序

count= 1

def role_count:

df = pd.DataFrame

forchapter in txt_al l:

names={}

data=[]

with open( './柯南/{}'.format(chapter), 'r',encoding= 'utf-8') asf:

forlinein f.readlines:

poss=jieba.cut( line)

forword in pos s:

ifword in role:

ifnames. get(word) isNone:

names[word]= 0

names[word]+= 1

df_new = pd.DataFrame.from_dict(names,orient= 'index',columns=[ '{}'.format( count)])

df = pd.concat([df,df_new],axis= 1)

print( '第{}集人物统计完毕'.format( count))

count+= 1

df.T.to_csv( 'role_count.csv',encoding= 'gb18030')

最低0.47元/天解锁文章

weixin_39827306

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。