pythongui界面实现爬取b站弹幕_Python爬虫自动化爬取b站实时弹幕实例方法

最新推荐文章于 2024-03-31 19:20:14 发布

谷俊丽

最新推荐文章于 2024-03-31 19:20:14 发布

阅读量366

点赞数 1

文章标签： pythongui界面实现爬取b站弹幕

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30125497/article/details/114407618

版权

免费资源网,https://freexyz.cn/

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱，b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站，那你知道如何爬取b站实时弹幕吗？本文以王冰冰视频弹幕为例，向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词

from wordcloud import WordCloud # 词云

from PIL import Image # 图片处理

import numpy as np # 图片处理

import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式，

分词代码

# 读取停用词库,注意编码应为‘utf8'

f = open('小夜斗的停用词表.txt', encoding='utf8')

stopwords = f.read().split('\n')

print(stopwords) # 打印停用词

f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:

text = fp.read()

4、读取冰冰弹幕数据文件的操作，将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词

mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件

# 文本清洗

for seg in segs: # 循环遍历每一个分词文本

# 如果该词不属于停用词表并且非空长度不为1

if seg not in stopwords and seg != "" and len(seg) != 1:

# 将该词语添加到mytext_list列表中

mytext_list.append(seg.replace(" ", ""))

print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语

print(cloud_text)

免费资源网,https://freexyz.cn/

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。