文本情感分析

情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪。

原理
比如这么一句话:“这手机的画面极好,操作也比较流畅。不过拍照真的太烂了!系统也不好。”
① 情感词
要分析一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞,好,顺手,华丽等,消极情感词比如:差,烂,坏,坑爹等。出现一个积极词就+1,出现一个消极词就-1。
里面就有“好”,“流畅”两个积极情感词,“烂”一个消极情感词。那它的情感分值就是1+1-1+1=2. 很明显这个分值是不合理的,下面一步步修改它。
② 程度词
“好”,“流畅”和‘烂“前面都有一个程度修饰词。”极好“就比”较好“或者”好“的情感更强,”太烂“也比”有点烂“情感强得多。所以需要在找到情感词后往前找一下有没有程度修饰,并给不同的程度一个权值。比如”极“,”无比“,”太“就要把情感分值*4,”较“,”还算“就情感分值*2,”只算“,”仅仅“这些就*0.5了。那么这句话的情感分值就是:4*1+1*2-1*4+1=3
③ 感叹号
可以发现太烂了后面有感叹号,叹号意味着情感强烈。因此发现叹号可以为情感值+2. 那么这句话的情感分值就变成了:4*1+1*2-1*4-2+1 = 1
④ 否定词
明眼人一眼就看出最后面那个”好“并不是表示”好“,因为前面还有一个”不“字。所以在找到情感词的时候,需要往前找否定词。比如”不“,”不能“这些词。而且还要数这些否定词出现的次数,如果是单数,情感分值就*-1,但如果是偶数,那情感就没有反转,还是*1。在这句话里面,可以看出”好“前面只有一个”不“,所以”好“的情感值应该反转,*-1。
因此这句话的准确情感分值是:4*1+1*2-1*4-2+1*-1 = -1
⑤ 积极和消极分开来
再接下来,很明显就可以看出,这句话里面有褒有贬,不能用一个分值来表示它的情感倾向。而且这个权值的设置也会影响最终的情感分值,敏感度太高了。因此对这句话的最终的正确的处理,是得出这句话的一个积极分值,一个消极分值(这样消极分值也是正数,无需使用负数了)。它们同时代表了这句话的情感倾向。所以这句评论应该是”积极分值:6,消极分值:7“
⑥ 以分句的情感为基础
再仔细一步,详细一点,一条评论的情感分值是由不同的分句加起来的,因此要得到一条评论的情感分值,就要先计算出评论中每个句子的情感分值。这条例子评论有四个分句,因此其结构如下([积极分值, 消极分值]):[[4, 0], [2, 0], [0, 6], [0, 1]] 
以上就是使用情感词典来进行情感分析的主要流程了,算法的设计也会按照这个思路来实现。
算法设计
第一步:读取评论数据,对评论进行分句。
第二步:查找对分句的情感词,记录积极还是消极,以及位置。
第三步:往情感词前查找程度词,找到就停止搜寻。为程度词设权值,乘以情感值。
第四步:往情感词前查找否定词,找完全部否定词,若数量为奇数,乘以-1,若为偶数,乘以1。
第五步:判断分句结尾是否有感叹号,有叹号则往前寻找情感词,有则相应的情感值+2。
第六步:计算完一条评论所有分句的情感值,用数组(list)记录起来。
第七步:计算并记录所有评论的情感值。
第八步:通过分句计算每条评论的积极情感均值,消极情感均值,积极情感方差,消极情感方差。
实战


import jieba
import numpy as np


#打开词典文件,返回列表
def open_dict(Dict = 'hahah', path=r'D:/untitled/Textming/Sent_Dict/Hownet/'):
    path = path + '%s.txt' % Dict
    dictionary = open(path, 'r', encoding='utf-8')
    dict = []
    for word in dictionary:
        word = word.strip('\n')
        dict.append(word)
    return dict



def judgeodd(num):
    if (num % 2) == 0:
        return 'even'
    else:
        return 'odd'

# 否定词与积极消极的词库路径
deny_word = open_dict(Dict = '否定词', path= r'D:/untitled/Textming/')
posdict = open_dict(Dict = 'positive', path= r'D:/untitled/Textming/')
negdict = open_dict(Dict = 'negative', path= r'D:/untitled/Textming/')
degree_word = open_dict(Dict = '程度级别词语', path= r'D:/untitled/Textming/')

mostdict = degree_word[degree_word.index('extreme')+1 : degree_word.index('very')]# 权重4,即在情感词前乘以4
verydict = degree_word[degree_word.index('very')+1 : degree_word.index('more')]# 权重3
moredict = degree_word[degree_word.index('more')+1 : degree_word.index('ish')]# 权重2
ishdict = degree_word[degree_word.index('ish')+1 : degree_word.index('last')]# 权重0.5



def sentiment_score_list(dataset):
    seg_sentence = dataset.split('。')
    count1 = []
    count2 = []
    for sen in seg_sentence: # 循环遍历每一个评论
        segtmp = jieba.lcut(sen, cut_all=False)  # 把句子进行分词,以列表的形式返回
        print(segtmp)
        i = 0 # 记录扫描到的词的位置
        a = 0 # 记录情感词的位置
        poscount = 0 # 积极词的第一次分值
        poscount2 = 0 # 积极词反转后的分值
        poscount3 = 0 # 积极词的最后分值(包括叹号的分值)
        negcount = 0 # 消极词的第一分值
        negcount2 = 0 # 消极词反转后的分值
        negcount3 = 0 # 消极词的最后分值 (包括叹号的分值)
        for word in segtmp:
            if word in posdict:  # 判断词语是否是情感词
                poscount += 1
                c = 0
                for w in segtmp[a:i]:  # 扫描情感词前的程度词
                    if w in mostdict:
                        poscount *= 4.0
                    elif w in verydict:
                        poscount *= 3.0
                    elif w in moredict:
                        poscount *= 2.0
                    elif w in ishdict:
                        poscount *= 0.5
                    elif w in deny_word:
                        c += 1
                if judgeodd(c) == 'odd':  # 扫描情感词前的否定词数
                    poscount *= -1.0
                    poscount2 += poscount
                    poscount = 0
                    poscount3 = poscount + poscount2 + poscount3
                    poscount2 = 0
                else:
                    poscount3 = poscount + poscount2 + poscount3
                    poscount = 0
                a = i + 1  # 情感词的位置变化

            elif word in negdict:  # 消极情感的分析,与上面一致
                negcount += -1
                d = 0
                for w in segtmp[a:i]:
                    if w in mostdict:
                        negcount *= -4.0
                    elif w in verydict:
                        negcount *= -3.0
                    elif w in moredict:
                        negcount *= -2.0
                    elif w in ishdict:
                        negcount *= -0.5
                    elif w in degree_word:
                        d += 1
                if judgeodd(d) == 'odd':
                    negcount *= -1.0
                    negcount2 += negcount
                    negcount = 0
                    negcount3 = negcount + negcount2 + negcount3
                    negcount2 = 0
                else:
                    negcount3 = negcount + negcount2 + negcount3
                    negcount = 0
                a = i + 1
            elif word == '!' or word == '!':  ## 判断句子是否有感叹号
                for w2 in segtmp[::-1]:  # 扫描感叹号前的情感词,发现后权值+2,然后退出循环
                    if w2 in posdict or negdict:
                        poscount3 += 2
                        negcount3 += 2
                        break
            i += 1 # 扫描词位置前移


            # 以下是防止出现负数的情况
            pos_count = 0
            neg_count = 0
            if poscount3 < 0 and negcount3 > 0:
                neg_count += negcount3 - poscount3
                pos_count = 0
            elif negcount3 < 0 and poscount3 > 0:
                pos_count = poscount3 - negcount3
                neg_count = 0
            elif poscount3 < 0 and negcount3 < 0:
                neg_count = -poscount3
                pos_count = -negcount3
            else:
                pos_count = poscount3
                neg_count = negcount3

            count1.append([pos_count, neg_count])
        count2.append(count1)
        count1 = []

    return count2

def sentiment_score(senti_score_list):
    score = []
    for review in senti_score_list:
        score_array = np.array(review)
        Pos = np.sum(score_array[:, 0]) # 积极
        Neg = np.sum(score_array[:, 1]) # 消极
        AvgPos = np.mean(score_array[:, 0])
        AvgPos = float('%.1f'%AvgPos)
        AvgNeg = np.mean(score_array[:, 1])
        AvgNeg = float('%.1f'%AvgNeg)
        StdPos = np.std(score_array[:, 0])
        StdPos = float('%.1f'%StdPos)
        StdNeg = np.std(score_array[:, 1])
        StdNeg = float('%.1f'%StdNeg)
        score.append([Pos, Neg, AvgPos, AvgNeg, StdPos, StdNeg])
    return score
data = '你就是个王八蛋,混账玩意!你们的手机真不好用!非常生气,我非常郁闷!!!!'
data2= '我好开心啊,非常非常非常高兴!今天我得了一百分,我很兴奋开心,愉快,开心'
data4 = "1月22日举行的电话国内通话费听证会如期结束,人们最关心的结果尚未出炉。24日相关人士称,“我们计划春节前制定出上限标准,让消费者过个好年。”在北京朝阳区河南大厦内,倍受关注的22日移动电话国内漫游通话费听证会结束后,主办方信息产业部、国家发展和改革委员会在这里召开了记者招待会。当天保安措施很好,在外面等待一天的各路媒体记者们,终于可以和相关人士进行正式对话。正是农历的腊月十五,清冽的寒风中,一轮满月在东方的天空无声地照耀着这座城市。众人期待的结果尚未公布,但主办方已经承诺,会尽快对听证会意见进行认真研究,在此基础上,提出移动电话国内漫游通话费上限标准调整方案,进一步征求各方意见,争取以最短时间出台。何霞,信息产业部研究院通信与政策研究所副总工程师,在事后接受《通信世界》周刊记者的采访时说,众所周知,最终方案还没有出来、但我个人认为政府主管部门一定会首先考虑到消费者的意见与建议,让消费者满意。在第二套方案中,降价幅度已达到63%,在听证会上,各相关利益主体都提出了各自的意见和看法,政府主管部门会将这些因素进行综合考虑。当日,移动通话漫游费的听证会结束后,大众当即总结了该次听证会的情况:两大听证会方案,三大交锋问题。其实之前不少大众媒体也提出了很多疑问,比如关键词“成本”、关键词“同网同价”。经过对这次事件的报道,大众媒体的很多记者因此成了这方面的准专家。早在听证会前,质疑的声音不绝于耳。有媒体甚至将“固网运营商代表为何也来参加听证会”这个问题抛给大众,留下悬念。“对这个问题,不能用定量的方式来回复,只能从定性的角度来考虑。”何霞副总工说。“漫游费的降低,不仅是减少两大移动运营商的收入,同时,更加剧了固网运营商的不利地位,移动漫游费将直接体现在对固话运营的业务替代。至于减多少,我想,由固网运营商来回答这个问题更合适、直观。”“考虑到现有盈利结构,固网运营商已经处于低增长期及负增长,除了,移动通话漫游费对另外几家运营商的影响不小。可以想见,如果没有竞争,这个市场将是不平衡的,我们都希望消费者能切实地享受到健康运行的服务保障环境。”事实上,信息产业部清算司司长王占甫在听证会记者招待会召开时已经提到,由于漫游费的下降,势必要造成目前这个市场格局的一些潜在的问题。由于漫游费下降,可能会有更多的用户特别是在漫游状态下使用的频率更多,对的分流可能更强一些。因此,在整个下调国内漫游费的过程中,对固定电话的冲击确实比较大。王占甫指出,由于这个问题是广大用户非常关心的,是矛盾比较突出的,两部委经过认真的评估,认为这个主要矛盾还是要设法加以解决。政府主管部门十分关注电信行业的健康发展,对推动行业的持续、健康发展,惠及广大用户的长远利益的问题,会通过进一步推进电信体制改革、进一步在企业均衡发展方面采取措施。王占甫说,“包括固定电话运营商的全业务经营问题”。全业务运营问题摆在电信产业界案头已久,分析人士认为,尽早及全业务经营,会将漫游费调整带给固网运营商的冲击力度降至最低。就在2007年11月18日“中国业发展20年高峰论坛”,信息产业部副部长已经呼吁,要尽快发放全业务经营牌照,早日推动固网运营商的全业务经营。通过行政手段,将所有的运营商都置于同一个起跑线上,体现了希望电信行业充分进行公平竞争的良好愿望。就在移动通话漫游费听证会举行的同时,众对该新闻事件进行了多方位关注。电视台栏目组纷纷将摄像机对准了行人,进行了实地街采,了解普通消费者的心声;通过平面和媒体展开的消费调查,也收集到无数消费者的真实想法。广东电视台新开播的《现象72辩》栏目,则邀请《通信世界》周刊总编辑杨海峰前往其在北京的摄制现场,参与对“移动通话漫游费该取消还是下调”的讨论。对话嘉宾还包括中消协律师团团长、律师邱宝昌,著名电视策划人、电视评论者、现任凤凰卫视《投资收藏》栏目总撰稿的薛宝海以及社会学者、高级经济师司马南。作为通信业界人士的杨海峰,在就“该不该取消漫游费表明态度”的开场白中坦言:“作为一名普通消费者,我也愿意看到降低通话费、取消移动漫游费。但移动漫游费的下调应该循序渐进。”他认为行业要健康发展,要循序渐进,太快会有副作用,一刀切的后果更危险。记者发现,在现场争论的过程中,对中国移动运营商每年投入大量的人力物力财力进行扩建事实,有人则认为移动运营商扩建基站纯粹为盈利考虑。因此也显示出,很多消费者其实并不了解移动通话费产生的具体算法和概念;更不了解业界格局的变化将对产业产生的巨大影响。这场唇枪舌战,将目前普遍存在的疑点进行了分解,讨论。现场参加节目录制的旁听席上二十多人中,时不时有人举起手中的牌子表示赞同或者反对意见。中国移动代表陆文昌表示,手机漫游是有成本的,此次资费调整会对企业收入和利润产生一定影响,不过,中国移动将继续高质量提供漫游服务,以确保新资费政策的早日实施。代表丁铭建议漫游费应进行渐进式调整。中国资产负债率高,赢利能力有限,第二套方案超出了联通的承受能力。他担忧大幅度降价后会造成电信企业竞争失衡,从而损害消费者的长期利益,“调整漫游费应与电信业结构调整相结合”。、、三方认为,电信资费调整需要循序渐进的过程,他们担心,在目前电信市场处于失衡的状态下,如果再下调漫游费,将进一步加速移动电话对固话的替代,固话运营商会陷入更困难的境地。"
print(sentiment_score(sentiment_score_list(data)))
print(sentiment_score(sentiment_score_list(data3)))

运行结果:

[[78.0, 169.0, 3.1, 6.8, 3.1, 6.5]]

[[327.0, 30.0, 14.9, 1.4, 22.5, 0.9]]

从得分我们看到第一段话是消极的,第二段是积极的。(主要看Pos与Neg大小)

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值