【深度学习】问题总结

1 什么是结构化数据

有明确的特征值的数据,比如年龄等

无明确的特征值的数据称之为非结构化数据,比如图片

 

2 为什么近几年深度学习发展如此迅速

数据量的变大

计算机运算速度的变快

 

3 神经网络中w初试值不能为0向量

若w全部初始值为0,隐藏层中每个单元算出相同的值,在BP算法改变w时会发现每组w是相同的,即一个隐藏层中的所有单元失去作用,w初值一般是设置正太分布数据(np.random.randn())然后除根号下前一层网络的节点数


4 为什么我们要用深层网络,单层隐藏层不行吗



5 如何解决 high bias(欠拟合) high variance(过拟合)

欠拟合: 改变网络,一般是要增大网络

过拟合:首先想到的应该是增大数据量(不会导致欠拟合发生太大变化),然后才是加入正则化,同时换网络结构可能会管用

注意:现在的工具可以在改变一方的同时几乎不影响另一方,故深度学习不太用考虑2者的平衡性问题,这也是深度学习在监督学习上的优势

 防止过拟合方法总结:

    ①加入正则化

    ②Dropout

    ③增大训练集

    ④早期停止


6 L1正则与L2正则

L1正则:会使W变得稀疏

L2正则:称之为权重衰减


为什么正则化会减少过拟合:

随着λ的增大,W接近于0,使得部分unit失去能力,削减了网络的复杂性

相同点:都用于避免过拟合

不同点:L1可以让一部分特征的系数缩小到0,从而间接实现特征选择。所以L1适用于特征之间有关联的情况。L2让所有特征的系数都缩小,但是不会减为0,它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况



7 为什么LSTM会比普通的RNN要好

其一:在复杂的场景中,有用的信息的间隔有大有小,长短不一,普通的RNN不能准确判断,而LSTM通过输入门、遗忘门、输出门可以有效的遗忘无用信息,保留有用信息。

其二:普通的隐藏层状态时通过叠乘的方式,而LSTM中的状态时通过叠加的方式,这样可以防止梯度消失和梯度爆炸


8 训练集和测试集要来自同一个分布



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值