libsvm java 情感分类_自然语言处理系列篇——情感分类

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它是否支持某种观点的信息。比如,“日媒:认为歼-31能够抗衡F-35,这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题,而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点...
摘要由CSDN通过智能技术生成

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它是否支持某种观点的信息。比如,“日媒:认为歼-31能够抗衡F-35,这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题,而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点,持反面态度。这是一项具有较大实用价值的分类技术,可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。

文智系统提供了一套情感分类的流程,可以对句子极别的评论进行分析,判断情感的正负倾向。接入业务的用户只需要将待分析文本按照规定的协议上传,就能实时得到情感分析的反馈。如果持续上传不同时间段的评论、综合分析,还能得到事件的发展趋势,或者产品的情感走势等。

一.常用分类方法介绍

文本分类方法一般包含如下几个步骤:训练语料准备、文本预处理、特征挖掘、分类算法选择、分类应用。具体的分类流程可以参考另一篇KM文章《文智背后的奥秘—自动文本分类》。这里,对一些常用的特征挖掘和分类算法做简单的介绍。

1.1特征挖掘方法

常见的特征选择方法有:TF-IDF、卡方、互信息、信息增益、X2统计量、交叉熵、Fisher判别式等方法,这里介绍一下工业上常用的两种方法。

1.1.1 TF-IDF

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。这里介绍一种对 TF-IDF 的傻瓜理解法:

TF:词频,表示特征t在文档D中出现的次数,比如一篇谈论乔布斯的文章,可预期“iphone”、“苹果”的TF值为较高。

DF:包含特征t的文档数,DF越高,表示特征X对于衡量文档之间的区别作用低。比如“我”、“的”这样的词,DF一般最高。

IDF:定义为IDF =log(|D|/DF),|D|为所有文档数。与DF成反比,IDF值越高,表示特征t对区别文档的意义越大。最终定义:TF-IDF=TF*IDF

1.1.2 信息增益

信息增益 (IG) 是公认较好的特征选择方法,它刻画了一个词语在文本中出现与否对文本情感分类的影响,即一个词语在文

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值