B站点评数据的文本挖掘

本文介绍了使用B站点评数据进行文本挖掘的过程,包括爬取动漫《昴宿七星》的1400条点评,通过分词、文本预处理,将评分转化为二分类变量,并利用朴素贝叶斯算法训练情感分析模型,最终模型在训练集和测试集上的准确率分别为0.667和0.607。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

B站点评数据的文本挖掘

本次的挖掘思路借鉴了中国大学MOOC的《媒体大数据挖掘与案例实战》,感兴趣的朋友可以自行观看,话不多说直入主题,本文是我另一篇博客的后续。
不清楚如何爬取B站数据的朋友可以看看我之前的博客:
如何爬取B站数据
话不多说直接上思路和代码。

爬虫

首先使用request库爬取点评和评分,原本打算继续对《异度侵入》进行挖掘的,但无奈该动漫在B站的宽松评分环境下平均分直接达到9.9分,不适合拿来做情感分析。于是更换了另一部评分较低的动漫《昴宿七星》,该动漫的平均分5.8较为均衡,好坏参半。

#%%#获取
import requests
import xlsxwriter
comments=[]#储存点评
scores=[]#储存评分
#先手动采集参数并观察规律,找出规律后可以批量生成,但要注意我们找出的“规律”并不一定准确,所以为了防止评论的重复写入需要在写入之前做判断以达到去重的效果。
cursorlist=[78662340896220,78606505670678,78310141682418,78026682130891,77906414447416,77811930278405,77691675188691,77588590988964,77408203374014,77219222456991,77021654784008,76961523583351,76888508943298,76802609463418,76721006017734,76678056213807,76652286323474,76626515527799,76600745678589,76562090901333,76549205969716,76540615989844,76523436094700,76514846135826,76510551136568,76506256175770,76506256140370,76501961139907,76497666161968,76493371186529,76489076240639,76484781216527,76480486120456,76476191240997,76467601312881,76467601274060,76463306308718,76459013556430,76454716373761,76403177513534,76364523885229,76317278036745,76274328311427,76214198672961,76166953939628,7613688910434
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值