深度学习相关知识

此为个人学习笔记,如有侵权,请联系删除

Attention

1、目的:Attention利用有限的注意力资源从大量信息中快速筛选出高价值信息(或者说是对当前任务目标更关键的信息)

2、注意力模型可以看作一种通用的思想,本身并不依赖于特定框架,目前大部分注意力机制都附着在Encoder-Decoder框架下,加入Attention机制的E-D模型就是把中间语义量身定制了,每个都不一样

3、Attention的求解:第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和。而第一个过程又可以细分为两个阶段:第一个阶段根据Query和Key计算两者的相似性或者相关性;第二个阶段对第一阶段的原始分值进行归一化处理

4、Self Attention:可以捕获同一个句子中单词之间的一些句法特征或者语义特征,比如RNN或者LSTM中距离长可能语义就会丢失,而Self Attention可以轻松解决。Self Attention对于增加计算的并行性也有直接帮助作用

一、Paper:《Recurrent Models of Visual Attention》
二、Blog:深度学习中的注意力模型(2017版)

Transformer

1、残差链接:通常用于解决多层网络训练的问题,可以让网络只关注当前差异的部分。
Skip connect的作用:(1)残差连接可以降低模型复杂度以减少过拟合(2)残差连接可以防止梯度消失
Skip connect的思想:将输出表述为输入和输入的一个非线性变换的线性叠加,没用新的公式,没有新的理论,只是换了一种新的表达。Y = H(x,WH) + X
2、Transformer的作用:基于Transformer的架构主要用于建模语言理解任务,它避免了在神经网络中使用递归,而是完全依赖于self-attention机制来绘制输入和输出之间的全局依赖关系。

一、Paper:《Attention Is All You Need》
二、Blog:Transformer模型详解
三、Blog:Resnet中的残差连接,你确定真的看懂了?
四、Blog:【关于Transformer】 那些的你不知道的事

表示学习

当我们学习一个复杂概念时,总想有一条捷径可以化繁为简。机器学习模型也不例外,如果有经过提炼的对于原始数据的更好表达,往往可以使得后续任务事倍功半。这也是表示学习的基本思路,即找到对于原始数据更好的表达,以方便后续任务(比如分类)。

特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是去设计输入变量X。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值