基于情感词库和PMI互信息的情感分类

本文介绍了使用情感词库和PMI互信息进行情感分类的方法,包括词库构建和算法设计。词库构建涉及情感词、评价词、语气词和PMI得分的整合。算法设计通过NGram生成特征并计算情感得分,结果显示unigram和bigram较有效。然而,分词准确性、词库覆盖范围和否定词处理是提高分类效果的关键挑战。
摘要由CSDN通过智能技术生成

     情感分类在数据挖掘领域应该是一个比较细分而且难做的部分,之前在研究生阶段了解了一点,印象中有研究把twitter的情感可以分为21类,情感分析在观点预测、市场营销都有一定的用处,刚好项目中有需要区分用户情感的部分,就花了点时间实现了一个比较简单的demo,效果不是很好,大概65%左右的准确率,需要进一步细化。

    词库构建

    词库的构建可以说是情感分类的重要而且比较有效的环节,一方便可以基于现有的情感词库进行扩展,另一方面,可以利用标注的语料来获取情感词库信息,现有的收集语料的方法一般是利用微博或者评论等信息来提取,因为这类信息一般含有表情,能一定程度的代表信息的情感倾向,然后利用这个倾向来根据互信息计算得到词语的情感极性。考虑到收集语料比较耗时,我主要采用了基于词库和PMI的方法来进行补充和完善,收集词库的信息主要包含以下步骤:

    1. 首先对词库进行了细分,主要分为积极、消极情感词库,积极、消极评价词库,经过语义扩展的积极、消极情感词库,语气词库,PMI计算得到的词语倾向性得分词库。

    2. 首先搜集了网上的情感词库,经过去重和整理之后,利用hownet和哈工大的同义词库对情感词库进行扩展。

    3. 收集了大概50W的评论数据,在前面收集的情感词库的基础上计算每个词的PMI分数。

    4. 给不同的词库赋予不同的权重。

    算法设计

    1. 对输入的句子进行分词,利用NGram, 生成unigram,bigram,trigram特征词组成的新的待分类的语句,这样初始输入是一个句子,输出就

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值