爱学it学无止境
在互联网时代,用户生成内容(UGC)成为了研究社交行为和文化趋势的重要数据来源。B站(哔哩哔哩)作为一个主要的弹幕视频分享平台,聚集了大量的用户评论和互动数据。弹幕作为一种实时的用户反馈形式,具有即时性和高互动性的特点,为数据分析提供了丰富的素材。本项目旨在通过爬取B站上一个关于萝卜快跑无人驾驶汽车的视频弹幕数据,进行数据分析,挖掘用户的评论内容和行为模式。
二、项目目标
- 弹幕数据爬取:使用Python编写爬虫程序,从指定视频中获取用户发布的弹幕数据。
- 数据清洗与预处理:对爬取到的弹幕数据进行清洗和预处理,去除无效信息。
- 数据分析:对弹幕数据进行词频统计、情感分析等,揭示用户的评论热点和情感倾向。
- 结果可视化:通过词云图和情感分布图等可视化手段展示分析结果。
三、项目文件
本项目包括以下主要文件:
danmu_crawler.py
: 爬取弹幕数据的Python脚本。data_cleaning.py
: 数据清洗与预处理脚本。word_frequency.py
: 分词和词频统计脚本。wordcloud.py
: 生成词云图的脚本。sentiment_analysis.py
: 进行情感分析的脚本。sentiment_distribution.py
: 生成情感分布图的脚本。
四、使用说明
环境配置
- 确保安装了Python 3.x版本。
- 安装必要的依赖库:
requests
、pandas
、jieba
、snownlp
、pyecharts
。
五、技术细节
(一)弹幕爬取
1. 源码
运行 danmu_crawler.py
脚本,根据提示输入视频的oid、开始时间、结束时间和Cookie信息,爬取指定时间范围内的视频弹幕数据并保存到本地文本文件。(如何找到视频oid和cookie将放在文末)
2. 运行结果
我这里爬取弹幕的时间区间是2024/7/13-2024/7/21,所以最后输出了九个原始的so文件,通过对so文件进行分析并利用正则表达式提取九个文件中的弹幕内容到一个txt文件中。