环境依赖
- python >= 3.6
- paddlepaddle >= 2.1
- paddlenlp
环境配置
- paddlepaddle安装:开始使用_飞桨-源于产业实践的开源深度学习平台
- paddlenlp安装:
pip install --upgrade paddlenlp>=2.0.0rc -i https://pypi.org/simple (PaddleNLP/installation.rst at develop · PaddlePaddle/PaddleNLP · GitHub)
- 依赖包安装:pip install attrdict pyyaml
翻译样例
- transformer机器翻译例子在:PaddleNLP代码库下的examples/machine_translation/transformer/ 下
- 该例子中提供了预处理后的WMT14ende数据集,首次启动会自动下载数据集到路径“~.paddlenlp/datasets/WMT14ende” 下
- 注意:该例子中的数据加载“reader.py”代码中直接使用了共享词表模式,没有分别加载src和trg词表
训练
- 单机单卡训练: CUDA_VISIBLE_DEVICES=0 python train.py --config ./configs/transformer.base.yaml
- 单机多卡训练:
# Setting visible devices for training
export CUDA_VISIBLE_DEVICES=0
python train.py --config ./configs/transformer.base.yaml
- 指定数据集训练: