深度学习-理论学习关键示意图

最近敲代码总感觉有点迷,很多东西直接使用Tensorflow或者Pytorch封装好的模块总感觉不得劲儿,算了还是恶补一下李老师的课吧,把该弄懂的东西都搞清楚。
正则化:为了减小噪声数据带来的预测偏差,λ越大,曲线越趋向于平滑(水平)。

image-20201002100628681

Bias and Variance:没瞄准和打不准

偏差过大:redesign model

方差大:collect data(数据变换)、regularization

image-20201001160556541 image-20201001161637796

Cross validation:保证public testing set 与 private Testing set一致,因为你的test也只是样本,而不是真实的数据分布。

Gradient Decent:梯度是函数值增加最快的方向,所以要取反,且梯度越大,斜率越大。

Adaptive learning rate: 各个参数应该不同,且应该随着t的增大而缩小

Adagrad:

image-20201001173103645

SGD:针对loss做文章,随机取一个样本进行loss计算

image-20201001174633410

Momentum:

image-20201002095540607 image-20201001194731303

Adam:

image-20201001195553850

Feature Scaling:求微分的时候会偏向于输入大的部分(x),所以需要进行归一化

image-20201001175152127

Maximum Likelihood:求导可得

image-20201001204509637

Sigmod Function

image-20201001210349115

Logistics Function:公式推导

image-20201001211704235 image-20201001211843734 image-20201001212250911 image-20201001213053837

判别模型和生成模型:判别模型在大数据量的情况下较优

image-20201001214558576

链式法则

image-20201002084855386

Backpropagation

image-20201002091516805

梯度消失:层数过多,后层根据前层已经下降(sigmod )到local minimal

image-20201002092632033

Early Stopping

image-20201002100334749

Dropout

image-20201002101542085 image-20201002101503097

CNN:单个Filter可以实现Property2,单个Filter中相同的feature,share同一组Weight,可以看图三理解一下。多个Conv_maxpool输出还是out_filter的数目,不是指数增长。

image-20201002110534705 image-20201002111053372 image-20201002111800015 image-20201002112623925 image-20201002112814189 image-20201002231631866 image-20201002232606997

RNN:当然memory中存入output也可以;LSTM中的Linear weight是训练出来的scalar,LSTM对照于DNN仅仅是将一个Neuro换成一个LSTM cell,4倍于RNN的参数。GRU相比于LSTM少了一个门,但效果类似且不容易Overfitting;LSTM可以解决Gradient vanishing的问题。

simple rnn:

image-20201003081840288 image-20201003082235653

lstm:

image-20201003082509414 image-20201003083007457 image-20201003083623442

lstm简单形态,C就是C,H就是H,不会影响输入。

image-20201003084512688

lstm最终形态,每层的C和H都会于下一个X一起影响输入。

image-20201003084622464

Word Embedding:类似于映射到更高的dimention追寻词根(class),需要共享参数。

image-20201003104408621 image-20201003104550164

Encoder and Decoder: 如果train的时候输入下一个的输入是reference,会存在bias,test时候会无法预期,可以采用scheduled sampling decide。

image-20201003111806785 image-20201003135000538 image-20201003135842063

**Attention-based-model:**a是计算得到的z和h的相似度,具体相似度的计算方法可以自己选择。其实C是一个信息抽取的集合。

image-20201003114050585 image-20201003114703563 image-20201003120157367
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Data_Designer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值