【nlp】1.5 文本数据增强（回译法）

最新推荐文章于 2024-05-29 16:56:25 发布

lys_828

最新推荐文章于 2024-05-29 16:56:25 发布

阅读量885

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理 python 人工智能

本文链接：https://blog.csdn.net/lys_828/article/details/134385592

版权

30 篇文章 ¥49.90 ¥99.00

订阅专栏

回译数据增强是文本数据增强的有效方法，通过谷歌翻译将文本转换为其他语言后再转回原语言，以生成新样本。这种方法简单且能保持高质量，但短文本中可能产生高重复率，可通过多次连续翻译来缓解。实现时需要注意谷歌翻译的访问限制和JSON解码错误，这些问题可在官方GitHub找到解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法，一般基于google翻译接口，将文本数据翻译成另外一种语言(一般选择小语种)，之后再翻译回原语言,，即可认为得到与与原语料同标签的新语料，新语料加入到原数据集中即可认为是对原数据集数据增强。

回译数据增强优势：

回译数据增强存在的问题:

高重复率解决办法:

回译数据增强实现：

# 思路分析
# 1 实例化翻译对象  google_translator()
# 2 translate(text,  lang_src='zh-cn', lang_tgt='ko') 中文翻译

了解本专栏