机器学习的过程总结
机器学习的过程总结:
- 提供样本{X,D} D为标签
- 建模:假设X与D的关系
Y=AX+B 多元线性回归
- 评价Y与D的接近程度:loss
Loss=(Y-D)**2
- 优化过程----循环迭代
- 获取一批样本Xi , Di
- 计算dloss(Xi,Di)/dW #此时的Xi和Di只是placeholder
- 执行优化----W-负梯度: W - (dloss/dW) * eta --> Wnew
eta:学习率
实际计算中只需计算最后一步即可,因为计算dloss(Xi,Di)的过程中只需要提供Xi,Di,而Xi,Di定义为placeholder,我们只需要把样本提供给模型(feed_dict),就可以完成优化的过程了。
过拟合问题:是由于可训练参数过多而训练样本不足
LOSS函数观察:
训练集的LOSS大,测试集LOSS也大,欠拟合
训练LOSS小,测试LOSS小---->模型选择合适
训练LOSS小,测试集LOSS大---->过拟合
训练集LOSS大,测试集LOSS小----基本没有(可能是迁移学习)
如果出现
说明学习率过大
增加可训练参数数量
1.把隐藏层数量减少,把隐藏层的神经元多一些叫广度神经网络
2.增加隐藏层数量叫深度神经网络
都可以达到增加可训练参数的数量
现在都是在深度上做
隐藏层的神经元数量选几个?
复杂问题可选多一些,简单问题少选一些
与样本复杂度有关
过拟合是由噪声引起的
机器学习模型思路:
简单数据+复杂模型->原始数据+多层神经网络
复杂数据+简单模型---->特征工程+线性回归
第一条路弱化了特征工程 ,深度神经网络成为通用机器学习模型
两个弱势:
- 比较难以训练(有时加了很多层反而不能得到结果)
- 得法复杂度太高(时间和空间)
所以能用传统机器学习做就不用深度神经网络
参考资料-----来自百度百科
二范数
二范数指矩阵A的2范数,就是A的转置共轭矩阵与矩阵A的积的最大特征根的平方根值,是指空间上两个向量矩阵的直线距离。类似于求棋盘上两点间的直线距离。
含 义:具有“长度”概念的函数
类似于:求棋盘上两点间的直线距离
特征:范数,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,其为矢量空间内的所有矢量赋予非零的正长度或大小。半范数反而可以为非零的矢量赋予零长度。
除了矩阵之外,向量和函数均有范数,其中:
矩阵范数:矩阵A的2范数就是 A的转置乘以A矩阵特征根 最大值的开根号;
向量范数:向量x的2范数是x中各个元素平方之和再开根号;
函数范数:函数f(x)的2范数是x在区间(a,b)上f(x)的平方的积分再开根号。
2-范数:║A║2 = A的最大奇异值 = ( max{ λi(AH*A) } ) 1/2(欧几里德范数,谱范数,即AHA特征值λi中最大者λ1的平方根,其中AH为A的转置共轭矩阵)。(参考“矩阵范数”的定义)