数据增强是扩充数据集的有效方法,本文介绍一种简单可行的 NLP 数据集扩充方法——回译,回译在文本分类中有比较好的效果,也被成功地用在 Kaggle 恶意评论分类比赛中。
1. 回译
上一篇文章《NLP 数据增强方法 EDA》介绍了一种 NLP 数据增强方法 EDA,本文介绍另一种简单的数据增强方法回译。回译指首先把句子翻译成另一种语言,然后再翻译回原来的语言。
原始句子:对面的女孩看过来
翻译成英文:The girl from the opposite looks over
回译:对面的女孩朝这边看了看
可以看到回译之后的句子和原始句子会存在不同,但是意思大体上一直。
2. 百度通用翻译 API
百度提供了通用翻译的 API,如下图所示。其中标准版是免费使用的,不限使用的字符量,但是每秒并发请求量是 1。通用翻译 API 地址:
http://api.fanyi.baidu.com/api/trans/product/prodinfo
![b602476057982cf601507600f012dfd0.png](https://i-blog.csdnimg.cn/blog_migrate/aa1857a1ed117e3eaf9aec7d1a344c29.jpeg)
百度通用翻译 API