文本情感分析

最新推荐文章于 2023-07-14 11:59:42 发布

陌心殇

最新推荐文章于 2023-07-14 11:59:42 发布

阅读量3.5k

点赞数 4

分类专栏：分析文本摘要情感分析文章标签： python 情感分析判断

分析同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

文本摘要

3 篇文章 0 订阅

订阅专栏

情感分析

3 篇文章 0 订阅

订阅专栏

情感分析就是分析一句话说得是很主观还是客观描述，分析这句话表达的是积极的情绪还是消极的情绪。

原理
比如这么一句话：“这手机的画面极好，操作也比较流畅。不过拍照真的太烂了！系统也不好。”
① 情感词
要分析一句话是积极的还是消极的，最简单最基础的方法就是找出句子里面的情感词，积极的情感词比如：赞，好，顺手，华丽等，消极情感词比如：差，烂，坏，坑爹等。出现一个积极词就+1，出现一个消极词就-1。
里面就有“好”，“流畅”两个积极情感词，“烂”一个消极情感词。那它的情感分值就是1+1-1+1=2. 很明显这个分值是不合理的，下面一步步修改它。
② 程度词
“好”，“流畅”和‘烂“前面都有一个程度修饰词。”极好“就比”较好“或者”好“的情感更强，”太烂“也比”有点烂“情感强得多。所以需要在找到情感词后往前找一下有没有程度修饰，并给不同的程度一个权值。比如”极“，”无比“，”太“就要把情感分值*4，”较“，”还算“就情感分值*2，”只算“，”仅仅“这些就*0.5了。那么这句话的情感分值就是：4*1+1*2-1*4+1=3
③ 感叹号
可以发现太烂了后面有感叹号，叹号意味着情感强烈。因此发现叹号可以为情感值+2. 那么这句话的情感分值就变成了：4*1+1*2-1*4-2+1 = 1
④ 否定词
明眼人一眼就看出最后面那个”好“并不是表示”好“，因为前面还有一个”不“字。所以在找到情感词的时候，需要往前找否定词。比如”不“，”不能“这些词。而且还要数这些否定词出现的次数，如果是单数，情感分值就*-1，但如果是偶数，那情感就没有反转，还是*1。在这句话里面，可以看出”好“前面只有一个”不“，所以”好“的情感值应该反转，*-1。
因此这句话的准确情感分值是：4*1+1*2-1*4-2+1*-1 = -1
⑤ 积极和消极分开来
再接下来，很明显就可以看出，这句话里面有褒有贬，不能用一个分值来表示它的情感倾向。而且这个权值的设置也会影响最终的情感分值，敏感度太高了。因此对这句话的最终的正确的处理，是得出这句话的一个积极分值，一个消极分值（这样消极分值也是正数，无需使用负数了）。它们同时代表了这句话的情感倾向。所以这句评论应该是”积极分值：6，消极分值：7“
⑥ 以分句的情感为基础
再仔细一步，详细一点，一条评论的情感分值是由不同的分句加起来的，因此要得到一条评论的情感分值，就要先计算出评论中每个句子的情感分值。这条例子评论有四个分句，因此其结构如下（[积极分值, 消极分值]）：[[4, 0], [2, 0], [0, 6], [0, 1]] 
以上就是使用情感词典来进行情感分析的主要流程了，算法的设计也会按照这个思路来实现。
算法设计
第一步：读取评论数据，对评论进行分句。
第二步：查找对分句的情感词，记录积极还是消极，以及位置。
第三步：往情感词前查找程度词，找到就停止搜寻。为程度词设权值，乘以情感值。
第四步：往情感词前查找否定词，找完全部否定词，若数量为奇数，乘以-1，若为偶数，乘以1。
第五步：判断分句结尾是否有感叹号，有叹号则往前寻找情感词，有则相应的情感值+2。
第六步：计算完一条评论所有分句的情感值，用数组（list）记录起来。
第七步：计算并记录所有评论的情感值。
第八步：通过分句计算每条评论的积极情感均值，消极情感均值，积极情感方差，消极情感方差。
实战

import jieba
import numpy as np


#打开词典文件，返回列表
def open_dict(Dict = 'hahah', path=r'D:/untitled/Textming/Sent_Dict/Hownet/'):
    path = path + '%s.txt' % Dict
    dictionary = open(path, 'r', encoding='utf-8')
    dict = []
    for word in dictionary:
        word = word.strip('\n')
        dict.append(word)
    return dict



def judgeodd(num):
    if (num % 2) == 0:
        return 'even'
    else:
        return 'odd'

# 否定词与积极消极的词库路径
deny_word = open_dict(Dict = '否定词', path= r'D:/untitled/Textming/')
posdict = open_dict(Dict = 'positive', path= r'D:/untitled/Textming/')
negdict = open_dict(Dict = 'negative', path= r'D:/untitled/Textming/')
degree_word = open_dict(Dict = '程度级别词语', path= r'D:/untitled/Textming/')

mostdict = degree_word[degree_word.index('extreme')+1 : degree_word.index('very')]# 权重4，即在情感词前乘以4
verydict = degree_word[degree_word.index('very')+1 : degree_word.index('more')]# 权重3
moredict = degree_word[degree_word.index('more')+1 : degree_word.index('ish')]# 权重2
ishdict = degree_word[degree_word.index('ish')+1 : degree_word.index('last')]# 权重0.5



def sentiment_score_list(dataset):
    seg_sentence = dataset.split('。')
    count1 = []
    count2 = []
    for sen in seg_sentence: # 循环遍历每一个评论
        segtmp = jieba.lcut(sen, cut_all=False)  # 把句子进行分词，以列表的形式返回
        print(segtmp)
        i = 0 # 记录扫描到的词的位置
        a = 0 # 记录情感词的位置
        poscount = 0 # 积极词的第一次分值
        poscount2 = 0 # 积极词反转后的分值
        poscount3 = 0 # 积极词的最后分值（包括叹号的分值）
        negcount = 0 # 消极词的第一分值
        negcount2 = 0 # 消极词反转后的分值
        negcount3 = 0 # 消极词的最后分值 （包括叹号的分值）
        for word in segtmp:
            if word in posdict:  # 判断词语是否是情感词
                poscount += 1
                c = 0
                for w in segtmp[a:i]:  # 扫描情感词前的程度词
                    if w in mostdict:
                        poscount *= 4.0
                    elif w in verydict:
                        poscount *= 3.0
                    elif w in moredict:
                        poscount *= 2.0
                    elif w in ishdict:
                        poscount *= 0.5
                    elif w in deny_word:
                        c += 1
                if judgeodd(c) == 'odd':  # 扫描情感词前的否定词数
                    poscount *= -1.0
                    poscount2 += poscount
                    poscount = 0
                    poscount3 = poscount + poscount2 + poscount3
                    poscount2 = 0
                else:
                    poscount3 = poscount + poscount2 + poscount3
                    poscount = 0
                a = i + 1  # 情感词的位置变化

            elif word in negdict:  # 消极情感的分析，与上面一致
                negcount += -1
                d = 0
                for w in segtmp[a:i]:
                    if w in mostdict:
                        negcount *= -4.0
                    elif w in verydict:
                        negcount *= -3.0
                    elif w in moredict:
                        negcount *= -2.0
                    elif w in ishdict:
                        negcount *= -0.5
                    elif w in degree_word:
                        d += 1
                if judgeodd(d) == 'odd':
                    negcount *= -1.0
                    negcount2 += negcount
                    negcount = 0
                    negcount3 = negcount + negcount2 + negcount3
                    negcount2 = 0
                else:
                    negcount3 = negcount + negcount2 + negcount3
                    negcount = 0
                a = i + 1
            elif word == '！' or word == '!':  ## 判断句子是否有感叹号
                for w2 in segtmp[::-1]:  # 扫描感叹号前的情感词，发现后权值+2，然后退出循环
                    if w2 in posdict or negdict:
                        poscount3 += 2
                        negcount3 += 2
                        break
            i += 1 # 扫描词位置前移


            # 以下是防止出现负数的情况
            pos_count = 0
            neg_count = 0
            if poscount3 < 0 and negcount3 > 0:
                neg_count += negcount3 - poscount3
                pos_count = 0
            elif negcount3 < 0 and poscount3 > 0:
                pos_count = poscount3 - negcount3
                neg_count = 0
            elif poscount3 < 0 and negcount3 < 0:
                neg_count = -poscount3
                pos_count = -negcount3
            else:
                pos_count = poscount3
                neg_count = negcount3

            count1.append([pos_count, neg_count])
        count2.append(count1)
        count1 = []

    return count2

def sentiment_score(senti_score_list):
    score = []
    for review in senti_score_list:
        score_array = np.array(review)
        Pos = np.sum(score_array[:, 0]) # 积极
        Neg = np.sum(score_array[:, 1]) # 消极
        AvgPos = np.mean(score_array[:, 0])
        AvgPos = float('%.1f'%AvgPos)
        AvgNeg = np.mean(score_array[:, 1])
        AvgNeg = float('%.1f'%AvgNeg)
        StdPos = np.std(score_array[:, 0])
        StdPos = float('%.1f'%StdPos)
        StdNeg = np.std(score_array[:, 1])
        StdNeg = float('%.1f'%StdNeg)
        score.append([Pos, Neg, AvgPos, AvgNeg, StdPos, StdNeg])
    return score
data = '你就是个王八蛋，混账玩意!你们的手机真不好用！非常生气，我非常郁闷！！！！'
data2= '我好开心啊，非常非常非常高兴！今天我得了一百分，我很兴奋开心，愉快，开心'
data4 = "1月22日举行的电话国内通话费听证会如期结束，人们最关心的结果尚未出炉。24日相关人士称，“我们计划春节前制定出上限标准，让消费者过个好年。”在北京朝阳区河南大厦内，倍受关注的22日移动电话国内漫游通话费听证会结束后，主办方信息产业部、国家发展和改革委员会在这里召开了记者招待会。当天保安措施很好，在外面等待一天的各路媒体记者们，终于可以和相关人士进行正式对话。正是农历的腊月十五，清冽的寒风中，一轮满月在东方的天空无声地照耀着这座城市。众人期待的结果尚未公布，但主办方已经承诺，会尽快对听证会意见进行认真研究，在此基础上，提出移动电话国内漫游通话费上限标准调整方案，进一步征求各方意见，争取以最短时间出台。何霞，信息产业部研究院通信与政策研究所副总工程师，在事后接受《通信世界》周刊记者的采访时说，众所周知，最终方案还没有出来、但我个人认为政府主管部门一定会首先考虑到消费者的意见与建议，让消费者满意。在第二套方案中，降价幅度已达到63%，在听证会上，各相关利益主体都提出了各自的意见和看法，政府主管部门会将这些因素进行综合考虑。当日，移动通话漫游费的听证会结束后，大众当即总结了该次听证会的情况：两大听证会方案，三大交锋问题。其实之前不少大众媒体也提出了很多疑问，比如关键词“成本”、关键词“同网同价”。经过对这次事件的报道，大众媒体的很多记者因此成了这方面的准专家。早在听证会前，质疑的声音不绝于耳。有媒体甚至将“固网运营商代表为何也来参加听证会”这个问题抛给大众，留下悬念。“对这个问题，不能用定量的方式来回复，只能从定性的角度来考虑。”何霞副总工说。“漫游费的降低，不仅是减少两大移动运营商的收入，同时，更加剧了固网运营商的不利地位，移动漫游费将直接体现在对固话运营的业务替代。至于减多少，我想，由固网运营商来回答这个问题更合适、直观。”“考虑到现有盈利结构，固网运营商已经处于低增长期及负增长，除了，移动通话漫游费对另外几家运营商的影响不小。可以想见，如果没有竞争，这个市场将是不平衡的，我们都希望消费者能切实地享受到健康运行的服务保障环境。”事实上，信息产业部清算司司长王占甫在听证会记者招待会召开时已经提到，由于漫游费的下降，势必要造成目前这个市场格局的一些潜在的问题。由于漫游费下降，可能会有更多的用户特别是在漫游状态下使用的频率更多，对的分流可能更强一些。因此，在整个下调国内漫游费的过程中，对固定电话的冲击确实比较大。王占甫指出，由于这个问题是广大用户非常关心的，是矛盾比较突出的，两部委经过认真的评估，认为这个主要矛盾还是要设法加以解决。政府主管部门十分关注电信行业的健康发展，对推动行业的持续、健康发展，惠及广大用户的长远利益的问题，会通过进一步推进电信体制改革、进一步在企业均衡发展方面采取措施。王占甫说，“包括固定电话运营商的全业务经营问题”。全业务运营问题摆在电信产业界案头已久，分析人士认为，尽早及全业务经营，会将漫游费调整带给固网运营商的冲击力度降至最低。就在2007年11月18日“中国业发展20年高峰论坛”，信息产业部副部长已经呼吁，要尽快发放全业务经营牌照，早日推动固网运营商的全业务经营。通过行政手段，将所有的运营商都置于同一个起跑线上，体现了希望电信行业充分进行公平竞争的良好愿望。就在移动通话漫游费听证会举行的同时，众对该新闻事件进行了多方位关注。电视台栏目组纷纷将摄像机对准了行人，进行了实地街采，了解普通消费者的心声；通过平面和媒体展开的消费调查，也收集到无数消费者的真实想法。广东电视台新开播的《现象72辩》栏目，则邀请《通信世界》周刊总编辑杨海峰前往其在北京的摄制现场，参与对“移动通话漫游费该取消还是下调”的讨论。对话嘉宾还包括中消协律师团团长、律师邱宝昌，著名电视策划人、电视评论者、现任凤凰卫视《投资收藏》栏目总撰稿的薛宝海以及社会学者、高级经济师司马南。作为通信业界人士的杨海峰，在就“该不该取消漫游费表明态度”的开场白中坦言：“作为一名普通消费者，我也愿意看到降低通话费、取消移动漫游费。但移动漫游费的下调应该循序渐进。”他认为行业要健康发展，要循序渐进，太快会有副作用，一刀切的后果更危险。记者发现，在现场争论的过程中，对中国移动运营商每年投入大量的人力物力财力进行扩建事实，有人则认为移动运营商扩建基站纯粹为盈利考虑。因此也显示出，很多消费者其实并不了解移动通话费产生的具体算法和概念；更不了解业界格局的变化将对产业产生的巨大影响。这场唇枪舌战，将目前普遍存在的疑点进行了分解，讨论。现场参加节目录制的旁听席上二十多人中，时不时有人举起手中的牌子表示赞同或者反对意见。中国移动代表陆文昌表示，手机漫游是有成本的，此次资费调整会对企业收入和利润产生一定影响，不过，中国移动将继续高质量提供漫游服务，以确保新资费政策的早日实施。代表丁铭建议漫游费应进行渐进式调整。中国资产负债率高，赢利能力有限，第二套方案超出了联通的承受能力。他担忧大幅度降价后会造成电信企业竞争失衡，从而损害消费者的长期利益，“调整漫游费应与电信业结构调整相结合”。、、三方认为，电信资费调整需要循序渐进的过程，他们担心，在目前电信市场处于失衡的状态下，如果再下调漫游费，将进一步加速移动电话对固话的替代，固话运营商会陷入更困难的境地。"
print(sentiment_score(sentiment_score_list(data)))
print(sentiment_score(sentiment_score_list(data3)))

运行结果：

[[78.0, 169.0, 3.1, 6.8, 3.1, 6.5]]

[[327.0, 30.0, 14.9, 1.4, 22.5, 0.9]]

从得分我们看到第一段话是消极的，第二段是积极的。（主要看Pos与Neg大小）

陌心殇

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
文本情感分析

情感分析就是分析一句话说得是很主观还是客观描述，分析这句话表达的是积极的情绪还是消极的情绪。原理比如这么一句话：“这手机的画面极好，操作也比较流畅。不过拍照真的太烂了！系统也不好。”① 情感词要分析一句话是积极的还是消极的，最简单最基础的方法就是找出句子里面的情感词，积极的情感词比如：赞，好，顺手，华丽等，消极情感词比如：差，烂，坏，坑爹等。出现一个积极词就+1，出现一个消极词就-1。里面就有“好...
复制链接

扫一扫