文章名:《Entity-Level Sentiment Analysis of Issue Comments》
作者 Jin Ding, Hailong Sun, Xu Wang, Xudong Liu
年份 2018
1 Introduction
本文针对开发网站中的开发者问题解决评论进行情感分析。对于开源网站Github的评论进行分析情感。
2 System Design
作者开发了实体情感分析工具Senti SW。结构图如下:Github上面的评论注释作为该工具的输入,过程中所识别的实体为“人”和“物”。如果识别是客观性的,结果输出为"neutral sentiment",如果是主观性,输出结果为<sentiment,entity>元组。该模型主要包含四个模块:数据预处理,特征向量化,情感分类和实体识别。 预处理模块的目的是去除无用的特征,通过去除单词、替换单词和阻止技术来降低噪声。矢量化模块试图通过TF-IDF和Doc2vec将一批单词转换成向量表达。情感分类模块把评论的情感极性转换成三种输出结果:positive,negative,neutral。实体识别模块将从情感分类模块分析出的带有主观情感输出结果(positive和negative)语句进行实体识别为“Person”或“Project”。
2.1 Dataset Generation
Github是一个开源网站,程序员可以上传自己的仓库,其他人可以进行借鉴使用。因此本文通过GitHubAPI从GitHub问题跟踪器构建了一个问题注释数据集,选取了十个深受欢迎的仓库获取评论数据进行分析。 选取的仓库原则如下:(1)至少被标注了5000+stars,表明足够受欢迎。(2)