【nlp】1.5 文本数据增强(回译法)

回译数据增强是文本数据增强的有效方法,通过谷歌翻译将文本转换为其他语言后再转回原语言,以生成新样本。这种方法简单且能保持高质量,但短文本中可能产生高重复率,可通过多次连续翻译来缓解。实现时需要注意谷歌翻译的访问限制和JSON解码错误,这些问题可在官方GitHub找到解决方案。
摘要由CSDN通过智能技术生成

文本数据增强

回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。

回译数据增强优势:

  • 操作简便, 获得新语料质量高

回译数据增强存在的问题:

  • 在短文本回译过程中,新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间

高重复率解决办法:

  • 进行连续的多语言翻译,如: 中文→韩文→日语→英文→中文,根据经验,最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.

回译数据增强实现:

# 思路分析
# 1 实例化翻译对象  google_translator()
# 2 translate(text,  lang_src='zh-cn', lang_tgt='ko') 中文翻译
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lys_828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值