李宏毅2020机器学习深度学习(完整版)国语李宏毅2020机器学习深度学习(完整版)国语总结

Gradient Descent

在这里插入图片描述
为什么是更新方程是wt+1 = wt - η▽?
将输入x当作固定的,本来也是,因为输入的数据集一开始就是固定的,那么将w和b当做变量去优化关于w和b的方程L,要用到偏导,偏导就是可以找到下降最快的方向,也就是当loss固定的时候(x是固定的所以loss的方程是固定的,而w和b是变量),w和b移动然后慢慢找到loss最时候,则我们就求出了最佳的变量w和b,至于为什么是η,

误差来源

在这里插入图片描述
bias: bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲,就是在样本上拟合的好不好。要想在bias上表现好,low bias,就得复杂化模型,增加模型的参数,但这样容易过拟合(overfitting),过拟合对应上图是high variance,点很分散。lowbias对应就是点都打在靶心附近,所以瞄的是准的,但手不一定稳。
varience:varience描述的是样本上训练出来的模型在测试集上的表现,要想在variance上表现好,lowvarience,就要简化模型,减少模型的参数,但这样容易欠拟合(unfitting),欠拟合对应上图是high bias,点偏离中心。low variance对应就是点都打的很集中,但不一定是靶心附近,手很稳,但是瞄的不准。
一般我们训练是三图到二图的过程,为了达到一图。

交叉熵的由来

首先我们知道从为什么是sigmoid function知道,σ()括号里面是线性的
在这里插入图片描述
L最大的意思是,求一个能够对x1,x2,…xN都能预测准确其类别的那个模型,也就是当x属于类别C1时候其f值为接近1,属于C2时(1-f)接近1,连乘得到L,使得L最大则模型最好,即得到所求模型。
在这里插入图片描述
对L变形,求对数,加负号,又二分类,拆分一个式子为0,1分布
在这里插入图片描述
整理得到最终化解后的L
在这里插入图片描述
而这个式子L就是p和q俩个分布的交叉熵,也就是表示,p和q俩个分布的差距有多大,也就是预测结果分布和实际结果分布之间差距。

在这里插入图片描述

过拟合 or欠拟合

过拟合:当在训练集上表现好,在测试集上表现不好
欠拟合:在训练集和测试集上表现都不好
在这里插入图片描述

relu在干啥

在这里插入图片描述

在这里插入图片描述
从图中看可能以为relu就是相当于直接去掉一些节点,网络变为线性的了,实际上随着输入的x不同,去掉的节点不同,所以整体上整个样本来说是非线性的。

Maxout激活函数

在这里插入图片描述
在这里插入图片描述

dropout具体计算技巧原理

在这里插入图片描述
dropout相当于训练了许许多多的出去你设置去掉节点的比例的神经网络,然后将其预测结果平均,但是,实际上你不可能这样计算,因为这样的子网络太多,速度太慢,所以就直接将整个网络的权重乘以(1-p)%,原理如下。

在这里插入图片描述
如图所示,直接将整个网络的权重乘以1/2就可以得到结果了。
四个网络之和为(w1x1+w2x2+w1x1+w2x2+0)/4 = 1/2w1x1+1/2w2x2

why deep

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

从电路设计来说,电路一般是越来越深,而不是越来广,因为深的电路实现相同功能要比广的电路所需的元器件更少。对于神经网络来说,类比,deep比wider需要更少的神经元就可以描述同样的function。

为什么LSTM可以解决RNN的梯度消失的问题?

在这里插入图片描述
梯度消失和梯度爆炸示意图
在这里插入图片描述

解释神经网络技巧

一、对输入每个特征加入小小的扰动,如果某一个输入特征对输出结果影响较大,则说明该特征比较重要,换做图像上就说这个像素点比较重要。
在这里插入图片描述
贴一个灰色方块
在这里插入图片描述

二、对某一块进行拿掉或者改动看输出,就知道某块对于机器识别的重要结果的重要程度
在这里插入图片描述

三、从结果入手反推
在这里插入图片描述
四、用一个可以解释的model模仿不可解释的model
比如线性的模型
比如决策树

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值