mRASP实现机器翻译

最新推荐文章于 2024-05-16 15:38:54 发布

HiJack¹

最新推荐文章于 2024-05-16 15:38:54 发布

阅读量238

点赞数 1

分类专栏：学习笔记文章标签：机器翻译人工智能自然语言处理 mRASP

本文链接：https://blog.csdn.net/jialins_blog/article/details/128481860

版权

学习笔记专栏收录该内容

39 篇文章 2 订阅

订阅专栏

官方地址：mRASP

一、配置环境

# 1、下载源码
wget https://github.com/linzehui/mRASP/archive/refs/heads/master.zip
# 2、解压
unzip master.zip
# 3、进入目录，安装所需环境
cd mRASP && pip install -r requirements.txt

二、数据预处理

1、对数据进行清洗、tokenize、subword操作，其中subword使用的是原来的词表或者合并后的词表。

# training set
bash ${PROJECT_ROOT}/preprocess/multilingual_preprocess_main.sh ${PROJECT_ROOT}/experiments/example/configs/preprocess/train_en2de.yml
# test set
bash ${PROJECT_ROOT}/preprocess/multilingual_preprocess_main.sh ${PROJECT_ROOT}/experiments/example/configs/preprocess/test_en2de.yml

2、将上述数据进行binarize（fairseq中特定的二进制化操作），具体操作可以参考

bash ${PROJECT_ROOT}/experiments/example/bin_finetune.sh

三、微调

export repo_dir=path/to/your/root
fairseq-interactive path/to/your/root/mRASP/experiments/project/data/fine-tune/en2de--path ${repo_dir}/experiments/project/models/fine-tune/transformer_big/en2de/checkpoint_best.pt --beam 5 --source-lang en--target-lang de --tokenizer moses --bpe subword_nmt --bpe-codes ${repo_dir}/experiments/project/vocab/codes.bpe.32000 --input=${repo_dir}/experiments/project/toked_en_de_test.txt | grep -P "D-[0-9]+"  > result.txt