《Kaggle》Tweet Sentiment Extraction 实战(一)构建数据加载器
前言
在上一步完成了数据分析之后,我们大致知道了该比赛的数据结构大致的情况,现在我们就将进一步进行分析,看如何将这些数据集变为我们可以训练的数据,即如何更改数据格式使其可以达到任务目标的格式。
➡️ 详情链接 《Kaggle》Kaggle比赛怎么进行数据分析
目标
首先我们要明确自己要做什么,即这个任务需要我们做什么,从sample_submission可以看出我们最后需要做的事情是从给定的tweet中找到决定该句话是positive还是negative还是netural的片段,它可以是一个词也可以是一句完整的话。
那么我们就知道了,这个任务需要从中识别出关于情感的一些词或句【NER】+将其抽取出来【片段抽取】
使用到的模型是最近刚学的RoBerta模型
➡️ 详情链接 《论文阅读》RoBERTa: A Robustly Optimized BERT Pretraining Approach
引用库
import tokenizers
分词器
在论文中用到的是字节级别的BPE