用于文本分类的数据增强方法

Answerlzd

于 2020-09-09 21:57:29 发布

阅读量1.6k

点赞数 1

分类专栏：自然语言处理文章标签：人工智能自然语言处理算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Answer3664/article/details/108502937

版权

自然语言处理专栏收录该内容

22 篇文章

订阅专栏

这是一篇发表在AAAI2020上的一篇文章，附上链接：https://aaai.org/ojs/index.php/AAAI/article/view/6233

方法名为LAMBADA(Language Model Based Data Augmentation)，核心思路为：

下面看一下每个步骤具体实施的过程：

选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器，第四步的时候要用。
这一步得到一个用于生成句子的模型：把训练集的数据组织成ySEPxEOS的格式，y是类别标签，SEP作为分隔符，x是需要分类的句子，EOS作为结束符。然后微调一个预训练好的语言模型，论文中使用的是GTP-2。这一步的主要目的是，微调之后给定一个类别标签，这个微调过的语料模型就能把后面的内容补全，从而生成对应类别标签y的句子x。
在上一步得到模型之后，每给模型一个ySEP。这个语言模型就能生成相应类别的句子。这样做的好处是每个类别都能生成数量相当的句子，不会造成类别上的不平衡。这样就可以得到合成的（synthesized）训练集。
利用第一步得到的分类器，过滤合成训练集中质量比较低的样本，提高构造数据的质量，得到我们最终需要的样本。

总结：

让我感到比较新奇的地方就是：我们之前都是给一个句子，判断句子的类别。这篇文章实现了给一个类别，能生成相应的句子。可能之前也有工作做了这个东西，不过我是没看到。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。