[NLP]如何进行情感分析


本文介绍的是如何进行情感识别。

在自然语言中(尤其社交媒体和购物网站中),每一句话都隐含了具体的情感倾向,比如中性、正面、负面。比如:今天天气不错;今天心情不太好;苹果手机不错;地球是圆的。对于人来说,可以很轻易的就分辨出上述句子是正面的、中性的、负面的。
但是在自然语言处理中是如何进行判断的呢?下面就对基本的情感分析方法进行介绍。

1.准备

1.1 种子词库

在真正开始前,首先想想人看到一句话是如何思考的。
比如:今天天气不错。对于今天和天气来说,只是具体的对话对象,表明讨论的是今天的天气;而真正起作用的是‘不错’,表明今天的天气令人很舒畅,或者心情变好。因为才会得出‘今天天气不错’是正面的评价。
这里我们不关心具体的评价对象,但是可以很清楚看出某些词对于情感倾向识别是起关键作用的。那么我们是否可以建立一个标准情感词库作为情感分析的种子词库呢?答案是肯定的。
情感倾向的种子词库建立是通过分析语料库,首先对语料库去除停用词,然后对与其中的词进行分类,分别为:正面、负面、中性。比如:

正面:不错、很好、很棒、伟大
负面:不好、很坏、讨厌、无用
中性:手机、地球、一般、还行

1.2 文档频率和文档共现频率

文档频率是指某一个词在文档中出现的次数,用 p(w) 表示。
文档共现频率是指在同一个文档中共同出现的词的出现次数,用 p(w1,w2) 表示。
假设我们有很多商品评价或者微博比如下面的形式:

1.xxxxxxxx
2.xxxxxxx
3.xxxx
4.xxxxxx

那么如何统计 p(w) p(w1,w2) 的呢?
p(w) 通过 / 计算得到。
p(w

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值