libsvm java 情感分类_自然语言处理系列篇——情感分类

旋风小黄瓜

于 2021-02-19 14:58:13 发布

阅读量755

点赞数

文章标签： libsvm java 情感分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36484465/article/details/114389962

版权

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程，即分析对说话人的态度，倾向正面，还是反面。它与传统的文本主题分类又不相同，传统主题分类是分析文本讨论的客观内容，而情感分类是要从文本中得到它是否支持某种观点的信息。比如，“日媒：认为歼-31能够抗衡F-35，这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题，而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点...

摘要由CSDN通过智能技术生成

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程，即分析对说话人的态度，倾向正面，还是反面。它与传统的文本主题分类又不相同，传统主题分类是分析文本讨论的客观内容，而情感分类是要从文本中得到它是否支持某种观点的信息。比如，“日媒：认为歼-31能够抗衡F-35，这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题，而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点，持反面态度。这是一项具有较大实用价值的分类技术，可以在一定程度上解决网络评论信息杂乱的现象，方便用户准确定位所需信息。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。按照处理文本的类别不同，可分为基于新闻评论的情感分析和基于产品评论的情感分析。

文智系统提供了一套情感分类的流程，可以对句子极别的评论进行分析，判断情感的正负倾向。接入业务的用户只需要将待分析文本按照规定的协议上传，就能实时得到情感分析的反馈。如果持续上传不同时间段的评论、综合分析，还能得到事件的发展趋势，或者产品的情感走势等。

一.常用分类方法介绍

文本分类方法一般包含如下几个步骤：训练语料准备、文本预处理、特征挖掘、分类算法选择、分类应用。具体的分类流程可以参考另一篇KM文章《文智背后的奥秘—自动文本分类》。这里，对一些常用的特征挖掘和分类算法做简单的介绍。

1.1特征挖掘方法

常见的特征选择方法有：TF-IDF、卡方、互信息、信息增益、X2统计量、交叉熵、Fisher判别式等方法，这里介绍一下工业上常用的两种方法。

1.1.1 TF-IDF

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。这里介绍一种对 TF-IDF 的傻瓜理解法：

TF：词频，表示特征t在文档D中出现的次数，比如一篇谈论乔布斯的文章，可预期“iphone”、“苹果”的TF值为较高。

DF：包含特征t的文档数，DF越高，表示特征X对于衡量文档之间的区别作用低。比如“我”、“的”这样的词，DF一般最高。

IDF：定义为IDF =log(|D|/DF)，|D|为所有文档数。与DF成反比，IDF值越高，表示特征t对区别文档的意义越大。最终定义：TF-IDF=TF*IDF

1.1.2 信息增益

信息增益 (IG) 是公认较好的特征选择方法，它刻画了一个词语在文本中出现与否对文本情感分类的影响，即一个词语在文

最低0.47元/天解锁文章

旋风小黄瓜

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
libsvm java 情感分类_自然语言处理系列篇——情感分类

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程，即分析对说话人的态度，倾向正面，还是反面。它与传统的文本主题分类又不相同，传统主题分类是分析文本讨论的客观内容，而情感分类是要从文本中得到它是否支持某种观点的信息。比如，“日媒：认为歼-31能够抗衡F-35，这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题，而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。