情感分析语料库——情感词典(中文英文)转

本文汇总了情感分析相关资源,包括中文和英文的情感词典,如知网、台湾大学的词典;还有多种情感分析语料,像酒店评论、豆瓣影评等语料,以及国外大学提供的影评、产品评论等语料,为情感分析研究提供了丰富资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

情感分析资源 (转)

中文的 http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html

情感词典
1.知网的情感词典
http://www.keenage.com/html/c_bulletin_2007.htm
由知网发布的词典,包括中文情感词典和英文情感词典

(以下需要论坛积分)

2.台湾大学的情感极性词典
http://www.datatang.com/data/11837
包括2810个正极性词语和8276个负极性词语。准确度很高


情感分析语料
3.酒店评论语料
http://www.datatang.com/data/11936 
谭松波整理的一个较大规模的酒店评论语料。
语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。

4.豆瓣网影评情感测试语料
http://www.datatang.com/data/13539 
来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料至527页。每页20条短评。共计11323条评论

5.酒店、电脑与书籍的评论语料
http://www.datatang.com/data/11937
数据量不太大,也有一些重复的数据

6.评论网页数据集
http://www.datatang.com/data/12044
数据量不小,包括的电影和评论都不少

 

--------------------------------------------------------------------------------------

文本情感分析综述∗赵妍妍+, 秦兵, 刘挺

4.2 情感分析的资源建设
4.2.1 情感分析的语料

1.(可下载) 康奈尔大学(Cornell)提供的影评数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.
2. 伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下
载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句
子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观
识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.
3. (可下载)Janyce Wiebe 等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA 语料适合于新闻评论领域任务的研究.
4. 麻省理工学院(MIT)的Barzilay 等人构建的多角度餐馆评论语料:共4,488 篇,每篇语料分别按照五个角
度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供
了研究平台.
5. 国内的中科院计算所的谭松波博士提供的较大规模的中文酒店评论语料:约有10,000 篇,并标注了褒贬
类别,可以为中文的篇章级的情感分类提供一定的平台.

4.2.2 情感分析的词典资源
情感分析发展到现在,有不少前人总结出来的情感资源,大多数表现为评价词词典资源.
1. GI(General Inquirer)评价词词典(英文,http://www.wjh.harvard.edu/~inquirer/).该词典收集了1,914 个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用.
2. NTU 评价词词典(繁体中文).该词典由台湾大学收集,含有2,812 个褒义词与8,276 个贬义词[76].
3.(可下载) 主观词词典(英文,http://www.cs.pitt.edu/mpqa/).该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性.
4. (可下载)HowNet 评价词词典(简体中文、英文,http://www.keenage.com/html/e_index.html).该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源.

### 中文文本情感分析词典 对于中文文本的情感分析,构建或获取合适的情感词典至关重要。常用的情感词典可以分为两类:通用型和领域特定型。 #### 1. 常见的中文情感词典资源 - **知网Hownet** 提供了一个较为全面的情感词汇库,其中包含了正面情绪、负面情绪以及其他相关联的情绪类别[^1]。 - **BosonNLP** 开源了一套高质量的中文情感词典,覆盖了广泛的情景,并且定期更新维护以适应新的表达方式和发展趋势[^2]。 - **清华大学THUOCL语料库** 收录了大量的分类标签数据集,其中包括情感倾向性的词语列表,适合学术研究和技术开发人员使用[^3]。 #### 2. 下载方法 大多数公开可用的情感词典都可以通过官方网站或者GitHub仓库下载: ```bash git clone https://github.com/bosonnlp/sentiment-dict.git cd sentiment-dict/ ``` 上述命令展示了如何克隆 BosonNLP 的 GitHub 项目来获得其发布的最新版本情感词典文件夹 `sentiment-dict`。 #### 3. 使用说明 一旦获得了所需的情感词典,在实际应用之前还需要做一些准备工作,例如加载字典到内存中以便快速查找匹配项;定义评分机制决定最终得分正负极性等操作。 以下是基于Python的一个简单例子展示怎样利用这些预先准备好的情感词典来进行基本的情感打分计算: ```python from collections import defaultdict def load_sentiment_dict(file_path): """读取情感词典""" with open(file_path, 'r', encoding='utf8') as f: lines = f.readlines() senti_words = {} for line in lines: word, score = line.strip().split()[:2] try: senti_words[word] = float(score) except ValueError: continue return senti_words def analyze(text, senti_dict): """对输入字符串进行简单的加权求和评估""" words = text.split(' ') scores = [] for w in words: if w in senti_dict: scores.append(senti_dict[w]) avg_score = sum(scores)/len(words) if len(words)>0 else 0. polarity = "positive" if avg_score >= 0 else "negative" return {"average": round(avg_score, 4), "polarity": polarity} # 加载情感词典并测试一段文字 senti_dict = load_sentiment_dict('./path/to/your/dictionary.txt') result = analyze("这个产品真的很好用", senti_dict) print(f"Polarity: {result['polarity']}, Average Score: {result['average']}") ``` 这段代码实现了两个主要功能函数——一个是用来解析本地存储的情感词典文档(`load_sentiment_dict`),另一个则是执行具体的情感分析逻辑(`analyze`)。最后给出了一个具体的调用实例,假设已经有一个路径指向有效的中文情感词典文件。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值