Ganu的dataset:
比较经典的数据集是Ganu et al. (2009).3K的句子包括 aspect categories和sentence polarities.
(G. Ganu, N. Elhadad, and A. Marian, “Beyond the stars: Improving rating predictions using review text content”. Proceedings of the 12th International Workshop on the Web and Databases, Providence, Rhode Island, 2009.)多篇论文里面也有用,但是不知道为什么没有找到。
semeval2014年的数据
对G的数据集进行了修改,其中对aspect terms进行了标注,另外aspect term polarities也进行了标注,同时对aspect category-specific也进行了标注。(注意到之前只是对整个句子进行标注)对G的数据集合也进行了错误纠正。另外加了额外的餐厅评论,以同样的方式标注,成为测试集。
http://alt.qcri.org/semeval2014/task4/XML数据格式如下
<sentence id="813">
<text>All the appetizers and salads were fabulous, the steak was mouth watering and the pasta was delicious!!!</text>
<aspectTerms>
<aspectTerm term="
Aspect Based Sentiment Analysis datasets
最新推荐文章于 2024-08-19 10:19:53 发布
这篇博客介绍了Aspect Based Sentiment Analysis领域的两个重要数据集:Ganu et al. (2009)和SemEval 2014 Task 4。Ganu的数据集包含3K条带有方面类别和句子极性的句子,而SemEval 2014对方面术语进行了标注,并增加了错误修正和新的餐厅评论作为测试集。SemEval-2015则进一步包含了方面类别、意见目标表达和情感极性。此外,还提及了情感分析的相关书籍和nltk库的应用示例。
摘要由CSDN通过智能技术生成