张量(tensor)
0维张量/标量 标量是一个数字
1维张量/向量 1维张量称为“向量”。
2维张量 2维张量称为矩阵
3维张量 公用数据存储在张量 时间序列数据 股价 文本数据 彩色图片(RGB)
张量=容器
优化方法
梯度下降
挑选一个初始值W0,重复迭代更新W0
学习率:步长的超参数
沿梯度方向将增加损失函数值
学习率不能选太小(尽量少计算梯度),也不能选太大
在整个训练集上算梯度太贵,随机采样b个样本i1,i2,…,ib来近似损失
b是批量大小,另一个重要的超参数,批量大小不能太小也不能太大
梯度下降通过不断沿着反梯度方向更新参数求解
小批量随机梯度下降是深度学习默认的求解算法
计算均方误差使用的是MSELoss类
loss=nn.MSELoss()
实例化SGD
回归估计一个连续值
分类预测一个离散类别
交叉熵常用来衡量两个概率的区别
softmax回归是一个多分类模型
感知机是一个二分类模型
回归输出实数
softmax回归输出概率
感知机收敛定理
感知机不能拟合XOR函数,它只能产生线性分割面
隐藏层大小是超参数
多层感知机和softmax相差在隐藏层
验证数据集:一个用来评估模型好坏的数据集,不要和训练数据混在一起
测试数据集:只用一次的数据集,不能用来调整超参数
K-则交叉验证:在没有足够多数据的时候使用,常用K=5或10
给定一个模型种类,将有两个主要因素:参数的个数,参数值的选择范围
VC维:对于一个分类模型,VC等于一个最大的数据集的大小,不管如何给定标号,都存在一个模型对它进行完美分类
支持N维输入的感知机的VC维是N+1
一些多层感知机的VC维为O(Nlog2N)
模型容量需要匹配数据复杂度,否则可能导致欠拟合和过拟合
对全连接层使用平移不变性和局部性得到卷积层
二维交叉相关和二维卷积由于对称性,在实际使用中没什么区别
卷积核和偏移是可学习的参数,卷积核的大小是超参数