雄狮少年,究竟怎样,我们用实际的数据来一探究竟

本文通过分析豆瓣上《雄狮少年》的影评数据,展示了影片评分的两极化趋势。利用爬虫获取评论数据并进行情感极性分析,发现评论情感分布明显,正向评论较多。接着,进行了词云可视化和主题挖掘,揭示了观众对影片的复杂态度。最后,运用词向量和机器学习模型进行情感分类,结果显示决策树模型表现最佳,但数据不平衡可能影响结果准确性。
摘要由CSDN通过智能技术生成

        最早知道这部影片的时候是在抖音上面看到的,说实在的基本上各大网红博主评价的主旋律都是会先说这是一部央视也点名“延续了优秀国漫基因”的高分作品,但是最后都会说到人物形象设计败笔的问题上面,距离这部影片上映已经有半月的时间了,到底怎么样?我今天用实际的一些数据来看个明白。

      上面是我从豆瓣影评首页截的图,可以看到有17w左右的人参与了评价,整体评分呈现两极化的态势,目前的评分维持在8.3分左右的水平,不知道后期会是怎么样的走势,从目前的得分来看可以说还是一部高分作品的。

        分析首先就是需要获取对应的数据,这里我之前的文章里面已经有实现好的爬虫可以直接拿来使用了,这里就不再多介绍了,由于客观限制的问题,数据没有办法放到文章里面来,这里也不再多介绍了,简单看下样例数据,如下所示:

        接下来来看下情感极向分布图,如下所示:

        可以看到,整体评论的两极化还是比较明显的,说明大家对这部高分作品是持有很大的质疑的。

      得到了情感极向的数据后,我们设定了一个基础的阈值为0.5,高于该阈值的评论数据我们认为是对这部作品持有正向情感的,低于该阈值的评论数据我们认为是对这部作品持有负面情绪的,以此为划分依据,将原始的评论语料数据划分为两个情感极向的数据集。

      我简单爬取了几百条的数据,这里对其分布进行了简单的可视化,如下所示:

 

         这个结果让我一度觉得是处理错了,怎么正向的评论这么多呢?这个跟我在抖音里面看到的几乎清一色的负向情感完全不一样的感觉了,在检查过每个环节的处理代码没有问题后,我就继续了,这是只是单纯的基于数据来做一个直观的分析,不牵涉其他方面的因素。

      做文本数据的分析首先想到的应该都会是词云可视化了吧,这里我也对雄狮少年的影评数据做了可视化,如下所示:

        我一般做了词云之后都喜欢顺道做一下主题的挖掘计算,这里也有比较方便的实现,我主要都是基于LDA来直接计算的。下面是计算出来的主题结果:

 

 

 

 

      一直觉得这个交互式的可视化还是很有意思的,可能跟我不懂前端开发有关系吧,一直都觉得界面、页面之类的东西都很有趣。

       之后,我想基于这批数据做一个情感分析的文本分类任务,这也是老话题了,这里还是熟悉的组合w2v+机器学习模型,因为数据量也比较少,所以词向量模型还有机器学习等模型的训练都很快,这里也是考虑到数据量的问题没有去使用深度学习,不过在小样本数据集上面做二分类任务,常规的机器学习模型都是可以胜任的。

      w2v的核心实现如下所示:

       训练完成得到的模型如下所示:

       到这里我们已经生成了所有样本数据的特征向量,之后就可以交由机器学习模型来进行训练学习和测试评估了,这里我主要是选取了决策树DT、支持向量机SVM和随机森林RF,这三种模型来进行整体对比分析。

       计算结果如下所示:

{
	"DT": {
		"precision": 0.6555555555555556,
		"recall": 0.6861702127659575,
		"F1": 0.6678743961352658,
		"accuracy": 0.6678743961352658
	},
	"RF": {
		"precision": 0.9351851851851851,
		"recall": 0.5625,
		"F1": 0.5764576457645765,
		"accuracy": 0.5764576457645765
	},
	"SVM": {
		"precision": 0.42727272727272727,
		"recall": 0.5,
		"F1": 0.46078431372549019,
		"accuracy": 0.46078431372549019
	}
}

       对其进行可视化如下所示:

         这个感觉跟样本数据的关系比较大,正负样本太不均衡了,这里的效果显示出来DT最好了,不过我这里基本没有怎么去调参数,只是为了做简单的对比。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值