ML知识点三言两语总结

conclusion

Batch and Momentum在gradient decent中的运用

调节learning rate,Adagrad 、RMSProp、Adam等优化策略的机理

分类损失函数 MSE 、cross-entropy
batch normalization,制造出尽可能各方向平滑的error surface,不同feature在同一维上的值进行标准化控制在0附近,让loss function(一般用sigmoid)收敛的更快,加参数调整输出分布防止输出平均值是0给network带来负面影响

取得坏的数据集的概率,减小这个概率所对应的方法,理想损失和显示损失的差距越小越好:增大样本集、减小参数可能值的个数(导致理想崩坏)

1、深度学习optimization的方法概述
2、识别图像,引入CNN架构,从fully connection到观察局部特征,相同的respective field共享参数,虽然限制了modle 的弹性但是在影像处理上做的好

从参数filter入手介绍CNN,
通过filter来侦测图像局部pattern,得到一组数字feature map,n个filter得到多个feature map,可以当成channels为n的图片,作为下一层的输入

多叠一层spatial transformer layer来应对CNN 不具有scale invirance和rotation invariance,把每个pixel坐标化,对weight做不同的设计来做到旋转缩放,使用线性插值来应对gradient 为0,控制两个layer之间的连接方式,两层之间可以做不同的STN根据后面的network来判断如何处理

自注意力机制
举例序列单词标注的例子,使用fullyconnected network容易overfitting,让fully connected network 与 self-attention 交替使用,采用Dot-product来计算输入向量之间的关联程度,考虑到相关性有多种可能,设置不同的参数矩阵实现多头注意力机制
有个问题是体现不了输入向量的位置信息,位置编码方式有待挖掘(有种是通过人工标注来实现)

同样是处理结构性比较重要的数据,self-attention自动学习考虑的范围,比CNN模型弹性更大

看了一点recurrent neural network

recurrent neural network在slot filling上的运用,通过设置memory考虑前文或前后文出现的word
LSTM的机制,参数量是普通neural network的4倍
rnn通过gradient decent比较难train,gradient vanish导致原因是不同layer之间transform参数共享,导致变化累积到很大,LSTM可以缓解这个问题

word embedding在dimension deduction的运用,利用prediction-based 方法来exploit context

第一个hidden layer(事实上只有一层)的output体现我们想找的word embedding的特性
预测next word的可能性,可以拓展到看前10个左右的word,每个word的1-of-N表示vector里同一个dimension共享参数(同一个word对应的word embedding才会相同也理应相同,二来好处是input(单词数量)dimension很大,十万维,到第一层上也会有挺多的,共享参数可以防止考虑更多的context需要更多的参数)

auto-encode基本概念
,变化是有限的

用一个word来描述document不够,不能体现word之间的组合信息

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值