用于情感分析的最佳开源模型 — 第 1 部分:字典模型 字典模式确实很快,但代价是精度较低

本文对比了多个开源的情感分析字典模型,包括TextBlob、NLTK VADER和Sentimentr。虽然这些模型计算速度快,但它们在识别负面情绪时精度较低。TextBlob和NLTK VADER在社交媒体文本处理上有所优化,而Sentimentr在R环境中表现良好。对于追求速度但可以接受较低精度的场景,这些模型是不错的选择。

介绍

在本系列文章中,我将尝试回答过去受到我的一位数据科学同事启发的问题:情感分析的最佳模型是什么?对于这个比较测试,我选择了 13 个流行的模型,这些模型经过预先训练用于情感分析,并且可以开源。在第 1 部分中,您将找到 4 个字典模型(3 个用于 Python,1 个用于 R),在第 2 部分中,我另外回顾了 9 个神经网络模型。

但首先,什么是情绪分析以及为什么它很重要?

情感分析是确定自然语言背后的观点、判断或情感的过程

情绪分析是一种非常强大的技术,可以用来分析客户反馈、监控社交媒体,甚至预测股票价格!然而,这是一项相当复杂的任务,因为它处理非结构化文本数据以及语言的细微差别。老实说,即使是人类也不能总是正确地表达情绪,例如,在处理讽刺时。

指标

情感分析最常见的指标是极性,我将在本文中使用它。然而,在文献中,您还可以找到其他指标,例如主观性(如果您想分析偏见)、情感(如果您想检测仇恨言论)等。

极性通常在 [-1, 1] 范围内测量,其中 -1 对应于强烈的负面情绪,0 对应于中性情绪,+1 对应于强烈的正面情绪。拥有极性值非常有用,因为它允许定义您自己的极性阈值t,将中性类别与负/正类别分开(参见下图)。

在这里插入图片描述
某些模型不输出极性值,而是提供不同情绪类别的概率:p --(强负面)、p -(负面)、p 0(中性)、p +(正面)、p ++(强正面) )。预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值