Combining Linguistic Features and Machine-learning Models for Sentiment Classification

本文探讨了在TASS2020情绪分析研讨会中的工作,主要关注西班牙语tweet的情感分类。研究涉及6种基本情感的细粒度分类,通过语言特征、word-embedding和CNN/SVM模型进行分析。尽管结果并非最优,但LF+WE模型在task2中取得了最高精确率,并提供了可解释性的结果。实验旨在评估语言特征的有效性,以及它们是否能与统计方法结合以提高准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

本文描述了参加TASS 2020情绪分析研讨会的情况,提出了两个策略

  • 根据几种西班牙语tweet的情感分类
  • 对6种基本情感进行细粒度的分类

提出基于单独的语言特征或者结合word-embedding。尝试了CNN和SVM,虽然没有达到最好的成绩,但是获得了task2的最高的精确率。以及一些具有竞争性的结果(competitive results)。虽然结果一般但是还是有实质性的好处,比如结果的可解释性。

Introduction

情感分析是自然语言处理的一项任务,包括对自然语言文本中主观意见的提取和分类。

任务:

task1:从西班牙语(欧洲西班牙语及其拉丁美洲变体)tweet中提取主观性的极性。分成positive、negative、neutral。

  • sub-task1:单语言分类
  • sub-task2:多语言分类

task2:基于多语言的情感分类,一共需要分成6个基础类。anger, disgust, fear, joy, sadness and surprise。

所有的数据都是不平衡的,任务一中netural比较多,任务而中others比较多。

方法:单独测试语言特征的可靠性或者结合经典的机器学习和深度学习模型。与统计方法相比,语言特征简化了结果的可解释性。研究问题如下:

  • RQ1:语言特征的使用是否足以与基于统计方法的最先进的方法竞争?
  • RQ2:语言特征是否可以与统计方法相结合,以提高结果的准确性,同时保持可解释性?
  • RQ3:语言特征的可靠性是否受到同一语言不同文化背景的影响?

为了回答这些研究问题,我们使用一个为西班牙语自行开发的工具,从数据集中提取了语言特征。这些语言特征会单独的或者与word-embedding的CNN和sentence-embedding的SVM结合评估。

Corpus description

Materials and methods

Preprocessing stage

  • lowercase
  • 修改错误拼写
  • 提取空格,制表符,换行符
  • removing expressive lengthening

每条tweet都经过处理,同时保留原来的tweet,用来提取有关大小写字符的某些特征(表示强调)。

Linguistic feature extraction

使用UMUTextStats进行语言特征提取,一个自己研发的工具(LIWC)进行文本分析,包括进行语言查询(Linguistic Inquiry)和Word Count。

Models based on word-embeddings

word-embedding相比于传统的n-grams和one-hot vector有两个有点:

  • 单词表示为密集的的向量而不是稀疏的向量,词义相似的单词的向量相似。
  • word-embedding可以使用来自网络的语料库进行初始化。

three runs:

  • LF+WE:linguistic features的多层感知器(Multilayer Perceptron)结合CNN的word-embedding
  • LF:linguistic features的支持向量机(SVM)
  • LF+SE:linguistic features结合sentence embedding

Result

Conclusions and further work

Acknowledgments

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

为了在Windows安装ADB工具,你可以按照以下步骤进行操作: 1. 首先,下载ADB工具包并解压缩到你自定义的安装目录。你可以选择将其解压缩到任何你喜欢的位置。 2. 打开运行窗口,可以通过按下Win+R键来快速打开。在运行窗口中输入"sysdm.cpl"并按下回车键。 3. 在系统属性窗口中,选择"高级"选项卡,然后点击"环境变量"按钮。 4. 在环境变量窗口中,选择"系统变量"部分,并找到名为"Path"的变量。点击"编辑"按钮。 5. 在编辑环境变量窗口中,点击"新建"按钮,并将ADB工具的安装路径添加到新建的路径中。确保路径正确无误后,点击"确定"按钮。 6. 返回到桌面,打开命令提示符窗口。你可以通过按下Win+R键,然后输入"cmd"并按下回车键来快速打开命令提示符窗口。 7. 在命令提示符窗口中,输入"adb version"命令来验证ADB工具是否成功安装。如果显示版本信息,则表示安装成功。 这样,你就成功在Windows安装ADB工具。你可以使用ADB工具来执行各种操作,如枚举设备、进入/退出ADB终端、文件传输、运行命令、查看系统日志等。具体的操作方法可以参考ADB工具的官方文档或其他相关教程。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [windows环境安装adb驱动](https://blog.csdn.net/zx54633089/article/details/128533343)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Windows安装使用ADB简单易懂教程](https://blog.csdn.net/m0_37777700/article/details/129836351)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值