day03||深度学习(李沐动手学深度学习)

学习进度:【14/73】

学习心得:前面这部分基础知识学的人很懵,概率论、线性代数知识的缺失导致在沐神推公式时候,全程都是看不明白的,反反复复拉进度条。。。总之就是,很后悔上课的时候咋没好好听。。

多层感知机

感知机

感知机与回归和Softmax回归的区别

  感知机是二分类(1或-1),而回归的输出是实数,Softmax回归的输出是概率。

收敛定理

XOR问题

异或操作

总结

多层感知机

chapter_multilayer-perceptrons/mlp.ipynb

学习XOR

单隐藏层

隐藏层大小是超参数,也就是可修改(输入和输出大小由数据决定,输出大小人为决定。)

单隐藏层 — 单分类

输入是n维向量

隐藏层大小是m,w1就是m*n的矩阵,偏移b就是标量的偏移,也就是长为m的向量

输出层是长为m的向量

Q:为什么需要非线性的激活函数?(σ(x)不可以等于x,也不可以等于nx)
A: 如果激活函数是线性的,那么单隐藏层的多层感知机就变成了最简单的线性模型。

激活函数

        ①Sigmoid 激活函数

        ②Tanh 激活函数

    

        ③ReLU 激活函数(很快)

      

单隐藏层 — 多类分类

输出变成了m*k的矩阵

对output做一次softmax

多隐藏层

总结

多层感知机的从零开始实现

实现流程

实现一个具有单隐藏层的多层感知机, 它包含256个隐藏单元。 注意,我们可以将这两个变量都视为超参数。 通常,我们选择2的若干次幂作为层的宽度。 因为内存在硬件中的分配和寻址方式,这么做往往可以在计算上更高效。

在这段代码中,scale=0.01 是在使用 nd.random.normal 函数初始化权重矩阵时的一个参数。这个函数是从一个正态分布(也称为高斯分布)中随机抽取值来填充权重矩阵。scale 参数定义了这个正态分布的标准差(σ),它控制了权重的初始范围。

模型选择

chapter_multilayer-perceptrons/underfit-overfit.ipynb

训练误差和泛化误差

训练误差:模型在训练数据上的误差

泛化误差:模型在新数据上的误差

验证数据集和测试数据集

K-折交叉验证

总结

过拟合和欠拟合

模型容量

模型容量的影响

我们跟关心泛化误差

估计模型容量

VC 维

统计学习理论的一个核心思想

对于一个分类模型,VC等于一个最大的数据集的大小,不管如何给定标号,都存在一个模型来对它进行完美分类

线性分类器的 VC 维

VC 维的用处

数据复杂度

总结

权重衰退

chapter_multilayer-perceptrons/weight-decay.ipynb

权重衰退是一种常见的处理过拟合(模型复杂度过高)的方法

使用均方范数作为硬性限制

使用均方范数作为柔性限制

演示对最优解的影响

罚可以理解为限制w的,找到一个平衡点使得总体最小

参数更新法则

总结

实践

丢弃法(Dropout)

chapter_multilayer-perceptrons/dropout.ipynb

暂退法(丢弃法)的动机

无偏差的加入噪音

使用丢弃法

相当于一个正则项

推理中的丢弃法

总结

数值稳定性

chapter_multilayer-perceptrons/numerical-stability-and-init.ipynb

神经网络的梯度

数值稳定性的常见两个问题

梯度爆炸

梯度消失

 总结

模型初始化和激活函数

chapter_multilayer-perceptrons/numerical-stability-and-init.ipynb

让训练更加稳定

让每层的方差是个常数

权重初始化

例子:MLP

①假设没有激活函数:

正向方差:

  反向均值和方差:

②假设线性的激活函数:

正向:

  反向:

Xavier 初始

Xavier 是一种常见的权重初始化方法

检查常用激活函数

总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值