前言
声明:本文参考了李宏毅机器学习2021年作业例程,开发平台是colab。
一、问题描述
二、实验过程
2.1 基于RNN
操作:直接跑原代码就可以
中途意外:跑程序时中途断开连接了,再跑就分配不到GPU了。
训练时间:6小时
2.2 基于Transformer
操作:在代码里把Transformer部分注释取消注释,然后调整到相应的参数。
目前colab不太稳定,所以我就不再自己做训练了,结果应该是比RNN的好的。
三、总结
评价指标BLEU
用于机器翻译任务,基于准确率,BLEU 得分越高越好。
network架构
- transformer多头注意力与单头注意力对于不同数据集有不同效果。
- 输出线性层不宜过多
- Conformer相比于Transformer有一定优化
代码链接: