论文阅读 Training Neural Machine Translation To Apply Terminology Constraints

一. 

该方法是在模型训练层面解决术语注入的问题。

二.

训练阶段主要是改变数据的处理方式:

1. 原始数据层面(增加注释,0无关,1源语术语,2目标语言术语)

2.bpe层面

将原始数据的注释推广到bpe切分后的token上,eg:如果Stellvertreter_2切分成了a、b,则a_2,b_2。

3.embedding层面

将注释向量和词向量进行拼接。

4. 术语覆盖度问题

为了保证没有包含术语的句子也能正确翻译,限制包含术语的句子在训练语料10%。

5. 术语匹配问题

在训练语料中定位术语时采用近似匹配,可以解决单复数多次解码的问题。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值