【深度学习】问题总结

最新推荐文章于 2023-12-24 11:24:38 发布

csdn_black

最新推荐文章于 2023-12-24 11:24:38 发布

阅读量306

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_Black/article/details/80808029

版权

1 什么是结构化数据

有明确的特征值的数据，比如年龄等

无明确的特征值的数据称之为非结构化数据，比如图片

2 为什么近几年深度学习发展如此迅速

数据量的变大

计算机运算速度的变快

3 神经网络中w初试值不能为0向量

若w全部初始值为0，隐藏层中每个单元算出相同的值，在BP算法改变w时会发现每组w是相同的，即一个隐藏层中的所有单元失去作用，w初值一般是设置正太分布数据（np.random.randn()）然后除根号下前一层网络的节点数

4 为什么我们要用深层网络，单层隐藏层不行吗

5 如何解决 high bias(欠拟合) high variance(过拟合)

欠拟合：改变网络，一般是要增大网络

过拟合：首先想到的应该是增大数据量（不会导致欠拟合发生太大变化），然后才是加入正则化，同时换网络结构可能会管用

注意：现在的工具可以在改变一方的同时几乎不影响另一方，故深度学习不太用考虑2者的平衡性问题，这也是深度学习在监督学习上的优势

防止过拟合方法总结:

①加入正则化

②Dropout

③增大训练集

④早期停止

6 L1正则与L2正则

L1正则：会使W变得稀疏

L2正则：称之为权重衰减

为什么正则化会减少过拟合：

随着λ的增大，W接近于0，使得部分unit失去能力，削减了网络的复杂性

相同点：都用于避免过拟合

不同点：L1可以让一部分特征的系数缩小到0，从而间接实现特征选择。所以L1适用于特征之间有关联的情况。L2让所有特征的系数都缩小，但是不会减为0，它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况

7 为什么LSTM会比普通的RNN要好

其一：在复杂的场景中，有用的信息的间隔有大有小，长短不一，普通的RNN不能准确判断，而LSTM通过输入门、遗忘门、输出门可以有效的遗忘无用信息，保留有用信息。

其二：普通的隐藏层状态时通过叠乘的方式，而LSTM中的状态时通过叠加的方式，这样可以防止梯度消失和梯度爆炸

8 训练集和测试集要来自同一个分布

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】问题总结

1 什么是结构化数据有明确的特征值的数据，比如年龄等无明确的特征值的数据称之为非结构化数据，比如图片 2 为什么近几年深度学习发展如此迅速数据量的变大计算机运算速度的变快 3 神经网络中w初试值不能为0向量若w全部初始值为0，隐藏层中每个单元算出相同的值，在BP算法改变w时会发现每组w是相同的，即一个隐藏层中的所有单元失去作用...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。