三种数据:训练、验证、测试集
训练:训练网络
验证:选择已经训练好的模型
测试:评估网络
建议验证集和测试集的数据来自同一分布
搞清楚 偏差 和 方差 的不同之处:偏差(Bias)与方差(Variance) - 知乎 (zhihu.com)
方差问题解决办法:正则化(避免过拟合和减少网络误差)
高方差:过拟合问题---神经网络过度拟合训练集
逻辑回归中加入正则化参数(regulation parameter- lambd)--超参数,,正则化参数w
使得损失函数变成(L2正则化):
神经网络中的成本函数
神经网络含有一个成本函数,该函数包含𝑊[1],𝑏 [1]到𝑊[𝑙],𝑏 [𝑙]所有参数,字母𝐿是神经 网络所含的层数,因此成本函数等于𝑚个训练样本损失函数的总和乘以 1/ 𝑚,正则项为 𝜆 /2𝑚 ∑ |𝑊[𝑙] | ^2 ,我们称||𝑊[𝑙] || ^2为范数平方,这个矩阵范数||𝑊[𝑙] ||^ 2(即平方范数),被定义 为矩阵中所有元素的平方求和。
矩阵范数被称为 弗罗贝尼乌斯范数 用下标F表示 表示一个矩阵中所有元素的平方和
dropout 正则化(随机失活‘):在用一个样本训练网络时,使某些节点随机失活,遍历训练集中的所有样本---每次训练一个极小的网络
inverted dropout 反向随机失活
early stopping 防止过拟合
归一化输入
两个步骤:零均值,归一化方差
1. 𝜇 = 1/ 𝑚 ∑ 𝑥(i) ,它是一个向量,𝑥等于每个训练数据 𝑥减去𝜇,意 思是移动训练集,直到它完成零均值化。
2.是归一化方差,注意特征𝑥1的方差比特征𝑥2的方差要大得多,我们要做的是给𝜎 赋值,𝜎^ 2 = 1 /𝑚 ∑ (𝑥 (𝑖)) ^2 ,这是节点𝑦 的平方,𝜎 ^2是一个向量,它的每个特征都有方差,注 意,我们已经完成零值均化,(𝑥 (𝑖) ) 2元素𝑦 2就是方差,我们把所有数据除以向量𝜎 2,最后变 成上图形式。---如何理解和推导?
归一化输入的必要性
学到第二门课的1.11了 quiz and homework 继续往后做