B站点评数据的文本挖掘

最新推荐文章于 2024-11-19 19:03:25 发布

梦

最新推荐文章于 2024-11-19 19:03:25 发布

阅读量928

点赞数 1

本文链接：https://blog.csdn.net/weixin_42275807/article/details/104756378

版权

本文介绍了使用B站点评数据进行文本挖掘的过程，包括爬取动漫《昴宿七星》的1400条点评，通过分词、文本预处理，将评分转化为二分类变量，并利用朴素贝叶斯算法训练情感分析模型，最终模型在训练集和测试集上的准确率分别为0.667和0.607。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

B站点评数据的文本挖掘

本次的挖掘思路借鉴了中国大学MOOC的《媒体大数据挖掘与案例实战》，感兴趣的朋友可以自行观看，话不多说直入主题，本文是我另一篇博客的后续。
不清楚如何爬取B站数据的朋友可以看看我之前的博客：
如何爬取B站数据
话不多说直接上思路和代码。

爬虫

首先使用request库爬取点评和评分，原本打算继续对《异度侵入》进行挖掘的，但无奈该动漫在B站的宽松评分环境下平均分直接达到9.9分，不适合拿来做情感分析。于是更换了另一部评分较低的动漫《昴宿七星》，该动漫的平均分5.8较为均衡，好坏参半。

#%%#获取
import requests
import xlsxwriter
comments=[]#储存点评
scores=[]#储存评分
#先手动采集参数并观察规律，找出规律后可以批量生成，但要注意我们找出的“规律”并不一定准确，所以为了防止评论的重复写入需要在写入之前做判断以达到去重的效果。
cursorlist=[78662340896220,78606505670678,78310141682418,78026682130891,77906414447416,77811930278405,77691675188691,77588590988964,77408203374014,77219222456991,77021654784008,76961523583351,76888508943298,76802609463418,76721006017734,76678056213807,76652286323474,76626515527799,76600745678589,76562090901333,76549205969716,76540615989844,76523436094700,76514846135826,76510551136568,76506256175770,76506256140370,76501961139907,76497666161968,76493371186529,76489076240639,76484781216527,76480486120456,76476191240997,76467601312881,76467601274060,76463306308718,76459013556430,76454716373761,76403177513534,76364523885229,76317278036745,76274328311427,76214198672961,76166953939628,7613688910434

最低0.47元/天解锁文章