学习笔记TF026:多层感知机

最新推荐文章于 2023-03-28 23:19:48 发布

利炳根

最新推荐文章于 2023-03-28 23:19:48 发布

阅读量437

点赞数

文章标签： tensorflow 机器学习深度学习

本文链接：https://blog.csdn.net/weixin_38776853/article/details/75732032

版权

隐含层，指除输入、输出层外，的中间层。输入、输出层对外可见。隐含层对外不可见。理论上，只要隐含层节点足够多，只有一个隐含层，神经网络可以拟合任意函数。隐含层越多，越容易拟合复杂函数。拟合复杂函数，所需隐含节点数，随隐含层数量增多指数下降。

过拟合，模型预测准确率在训练集上升，在测试集下降。泛化性不好，模型记忆当前数据特征，不具备推广能力。参数太多。Hinton教授团队，Dropout。随便丢弃部分输出数据节点。创造新随机样本，增大样本量，减少特征数量，防止过拟合。bagging方法，对特征新种采样。

SGD参数难调试，SGD设置不同学习速率，结果可能差异巨大。神经网络很多局部最优解可以达到比较好分类效果，全局最优反而容易过拟合。Adagrad、Adam、Adadelta自适应方法，减轻调试参数负担。SGD需要调试学习速率、Momentum、Nesterov参数。

梯度弥散(Gradient Vanishment)。Sigmoid函数具有限制性，输出数值在0〜1,最符合概率输出定义。非线性Sigmoid函数，信号特征空间映射，中央区信号增益大，两侧区信息增益小。中央区像神经元兴奋态，两侧区像神经元抑制态。训练时，重要特征放中央区，非重要特征放两侧区。Sigmoid比最初期线性激活函数y=x，阶梯激活函数y=-1(x<0)|y=1(x>=0)、y=0(x<0)|y=1(x>=0)好。Sigmoid函数反向传播梯度值在多层传递指级急剧减小，根据训练数据反馈更新神经网络参数非常缓慢，不起训练作用。

ReLU，非线性函数y=max(0,x)，坐标轴上折线，

最低0.47元/天解锁文章

利炳根

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记TF026:多层感知机

隐含层，指除输入、输出层外，的中间层。输入、输出层对外可见。隐含层对外不可见。理论上，只要隐含层节点足够多，只有一个隐含层，神经网络可以拟合任意函数。隐含层越多，越容易拟合复杂函数。拟合复杂函数，所需隐含节点数，随隐含层数量增多指数下降。过拟合，模型预测准确率在训练集上升，在测试集下降。泛化性不好，模型记忆当前数据特征，不具备推广能力。参数太多。Hinton教授团队，Dropout。随便丢弃部分输出
复制链接

扫一扫