用WordNet实现中文情感分析

最新推荐文章于 2024-08-16 00:00:00 发布

rolin-刘瑞

最新推荐文章于 2024-08-16 00:00:00 发布

阅读量8.2k

点赞数

分类专栏：人工智能问答系统情感词分析文章标签：人工智能问答系统情感词分析

问答系统同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

人工智能

2 篇文章 0 订阅

订阅专栏

情感词分析

1 篇文章 0 订阅

订阅专栏

1. 分析

中文的情感分析可以用词林做，词林有一大类（Ｇ类）对应心理活动，但是相对于wordnet还是太简单了．因此使用nltk+wordnet的方案，如下：

1) 中文分词：结巴分词

2) 中英文翻译：wordnet汉语开放词网，可从以下网址下载：
http://compling.hss.ntu.edu.sg/cow/

3) 情感分析：wordnet的sentiwordnet组件

4) 停用词：参考以下网页，另外加入常用标点符号
http://blog.csdn.net/u010533386/article/details/51458591

2. 代码

[python]view plaincopy 
   
 # encoding=utf-8  
 import jieba  
 import sys  
 import codecs  
   
 reload(sys)  
   
 import nltk  
 from nltk.corpus import wordnet as wn  
 from nltk.corpus import sentiwordnet as swn  
   
 sys.setdefaultencoding('utf8')  
   
 def doSeg(filename) :  
     f = open(filename, 'r+')  
     file_list = f.read()  
     f.close()  
   
     seg_list = jieba.cut(file_list)  
   
     stopwords = []    
     for word in open("./stop_words.txt", "r"):    
         stopwords.append(word.strip())   
   
     ll = []  
     for seg in seg_list :  
         if (seg.encode("utf-8") not in stopwords and seg != ' ' and seg != '' and seg != "\n" and seg != "\n\n"):  
             ll.append(seg)  
     return ll  
   
 def loadWordNet():  
     f = codecs.open("./cow-not-full.txt", "rb", "utf-8")  
     known = set()  
     for l in f:  
         if l.startswith('#') or not l.strip():  
             continue  
         row = l.strip().split("\t")  
         if len(row) == 3:  
             (synset, lemma, status) = row   
         elif len(row) == 2:  
             (synset, lemma) = row   
             status = 'Y'  
         else:  
             print "illformed line: ", l.strip()  
         if status in ['Y', 'O' ]:  
             if not (synset.strip(), lemma.strip()) in known:  
                 known.add((synset.strip(), lemma.strip()))  
     return known  
   
 def findWordNet(known, key):  
     ll = [];  
     for kk in known:  
         if (kk[1] == key):  
              ll.append(kk[0])  
     return ll  
   
 def id2ss(ID):  
     return wn._synset_from_pos_and_offset(str(ID[-1:]), int(ID[:8]))  
   
 def getSenti(word):  
     return swn.senti_synset(word.name())  
   
 if __name__ == '__main__' :  
     known = loadWordNet()  
     words = doSeg(sys.argv[1])  
   
     n = 0  
     p = 0  
     for word in words:  
       ll = findWordNet(known, word)  
       if (len(ll) != 0):  
           n1 = 0.0  
           p1 = 0.0  
           for wid in ll:  
               desc = id2ss(wid)  
               swninfo = getSenti(desc)  
               p1 = p1 + swninfo.pos_score()  
               n1 = n1 + swninfo.neg_score()  
           if (p1 != 0.0 or n1 != 0.0):  
               print word, '-> n ', (n1 / len(ll)), ", p ", (p1 / len(ll))  
           p = p + p1 / len(ll)  
           n = n + n1 / len(ll)  
     print "n", n, ", p", p