subword-nmt 基本使用

一.生成bpe模型和词典

subword-nmt learn-joint-bpe-and-vocab --input corpus.path -s 30000 --output en.bpe --wirte-vovocabulary dict.en.txt
#corpus.path:语料路径
#en.bpe:bpe模型
#dict.en.txt:英文词典

二.根据bpe模型对语料进行切分

subword-nmt apply-bpe -c en.bpe < corpus.path > corpus.bpe
#corpus.bpe:bpe后的语料

三.使用fairseq根据词典和语料训练模型

1.将corpus切分出训练集、验证集、测试集

sed -n 1,1000000p corpus.bpe > train.en

2.执行preprocess文件

python $FILE/preprocess.py \
    --source-lang en --target-lang zh \
    --trainpref $DATA/train --validpref $DATA \
    --destdir $DATA/preprocess \
    --srcdict dict.en.txt \
    --tgtdict dict.zh.txt \

 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值