Transformer模型

目的:
理解Transformer模型,借鉴设计思路

参考的是Transformer做翻译的模型

一、人工翻译原理(个人理解)
1、熟悉源、目标词汇
2、熟悉源、目标语法
3、理解源上下文

二、Transformer模型核心(个人理解)
通过巧妙设计,将
1、源及目标词汇表
2、源句子词汇位置关系,彼此关联度评分
3、目标句子词汇位置关系,彼此关联度评分
三者关联在一起,达到源句子与目标句子勾连(这过程很复杂),然后生成预测句子。
预测句子再与标签句子概率比较,判定预测结果准确性。
过程产生巨量参数矩阵记录这种细节特征。
通过多次迭代修订参数矩阵,使得预测句子不断的逼近标签句子。完成训练。

贴图仅是为了好看:

  

三、收获:
1、任何一种应用场景的模型,都是其内在规律的表达,
     模型设计是分析规律之后使用某种工具把内在规律表达出来。
2、torch的nn.module基类提供了一种普遍可行的工具框架。(TensorFlow也类似)

四、问题
1、模型结构复杂细节多,且理论高度集成,理解耗时
2、训练及调整时间成本过高,1000万英文句子+1000万中文句子训练
在3080ti 16G显存需要6个小时完成一批次,如果想获得好的效果,需要训练100次以上...

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值