ML知识点三言两语总结

Selvaggia

已于 2023-11-08 09:41:06 修改

阅读量126

点赞数

文章标签：人工智能

于 2023-11-07 13:02:21 首次发布

本文链接：https://blog.csdn.net/qq_51070956/article/details/134172155

版权

conclusion

Batch and Momentum在gradient decent中的运用

调节learning rate，Adagrad 、RMSProp、Adam等优化策略的机理

分类损失函数 MSE 、cross-entropy
batch normalization，制造出尽可能各方向平滑的error surface，不同feature在同一维上的值进行标准化控制在0附近，让loss function（一般用sigmoid）收敛的更快，加参数调整输出分布防止输出平均值是0给network带来负面影响

取得坏的数据集的概率，减小这个概率所对应的方法，理想损失和显示损失的差距越小越好:增大样本集、减小参数可能值的个数（导致理想崩坏）

1、深度学习optimization的方法概述
2、识别图像，引入CNN架构，从fully connection到观察局部特征，相同的respective field共享参数，虽然限制了modle 的弹性但是在影像处理上做的好

从参数filter入手介绍CNN，
通过filter来侦测图像局部pattern，得到一组数字feature map，n个filter得到多个feature map，可以当成channels为n的图片，作为下一层的输入

多叠一层spatial transformer layer来应对CNN 不具有scale invirance和rotation invariance，把每个pixel坐标化，对weight做不同的设计来做到旋转缩放，使用线性插值来应对gradient 为0，控制两个layer之间的连接方式，两层之间可以做不同的STN根据后面的network来判断如何处理

自注意力机制
举例序列单词标注的例子，使用fullyconnected network容易overfitting，让fully connected network 与 self-attention 交替使用，采用Dot-product来计算输入向量之间的关联程度，考虑到相关性有多种可能，设置不同的参数矩阵实现多头注意力机制
有个问题是体现不了输入向量的位置信息，位置编码方式有待挖掘（有种是通过人工标注来实现）

同样是处理结构性比较重要的数据，self-attention自动学习考虑的范围，比CNN模型弹性更大

看了一点recurrent neural network

二

recurrent neural network在slot filling上的运用，通过设置memory考虑前文或前后文出现的word
LSTM的机制，参数量是普通neural network的4倍
rnn通过gradient decent比较难train，gradient vanish导致原因是不同layer之间transform参数共享，导致变化累积到很大，LSTM可以缓解这个问题

word embedding在dimension deduction的运用，利用prediction-based 方法来exploit context

第一个hidden layer（事实上只有一层）的output体现我们想找的word embedding的特性
预测next word的可能性，可以拓展到看前10个左右的word，每个word的1-of-N表示vector里同一个dimension共享参数（同一个word对应的word embedding才会相同也理应相同，二来好处是input（单词数量）dimension很大，十万维，到第一层上也会有挺多的，共享参数可以防止考虑更多的context需要更多的参数）

auto-encode基本概念
，变化是有限的

用一个word来描述document不够，不能体现word之间的组合信息

Selvaggia

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ML知识点三言两语总结

预测next word的可能性，可以拓展到看前10个左右的word，每个word的1-of-N表示vector里同一个dimension共享参数（同一个word对应的word embedding才会相同也理应相同，二来好处是input（单词数量）dimension很大，十万维，到第一层上也会有挺多的，共享参数可以防止考虑更多的context需要更多的参数）取得坏的数据集的概率，减小这个概率所对应的方法，理想损失和显示损失的差距越小越好:增大样本集、减小参数可能值的个数（导致理想崩坏）
复制链接

扫一扫