abstract
主要任务是在西班牙tweet中进行情感分类,主要使用到bags-of-words,bag-of-characters和tweet embedding。
尤其是训练了单词前缀embedding(subword-aware word embedding)的鲁棒性和使用权重均衡策略(weighted-averageing strategy)计算了tweet的表示法。使用两种数据增强技术来处理数据稀缺性问题。双向交叉增强(two-way-translation)和实例交叉增强(instance crossover augmentation),一种结合一半tweet生成新的实例的新技术。
训练了线性分类器和集成模型。
Introduction
- 任务
- 数据集
- 基本思路:分成两个子任务,在单语言子任务中,系统必须在同一数据集上进行训练和测试。在交叉语言任务中,系统必须使用非用于测试国家的语言数据集进行测试。
- 介绍数据怎么处理,技术大概有哪些
- 其他工作
Techniques and Resources
- 数据处理
- Bags of words and characters
- Word Embeddings
- Tweet Embeddings
- Data Augmentation witg Two-Wag Translation
-
Data Augmentation with Instance Crossover
Experiments
介绍使用的环境,模型,包等等。
- System Development:系统的构建,探索模型的好坏,超参数的设置,实验结果:分类报告,混淆矩阵
-
Subtask 1: Monolingual Experiments:
-
Subtask 2: Crosslingual Experiments
-
Ablation Tests :控制变量法
Conclusions