神经网络优化算法

本文探讨了神经网络的优化方法,包括数据集划分、正则化技术如L1和L2范数、dropout、数据增广、早停策略。还介绍了批标准化(BN)、梯度消失爆炸的解决方案、动量梯度下降、RMSprop和Adam等优化算法,以及学习因子衰减和超参数调试。此外,文章提到了迁移学习和多任务学习在提高模型性能中的应用。
摘要由CSDN通过智能技术生成

数据集划分:train/dev/test 训练集、验证集、测试集三部分。(当没有测试集的时候,也把验证集叫做test sets).训练集:训练算法模型。验证集:验证不同算法的表现情况,选择最佳算法模型。测试集:测试最好算法的实际表现,作为该算法的无偏估计。(泛化能力)

样本量<10000,6: 2:2。 样本量很大如100万,则98%:1%:1%。

 

正则化:

L1范数(也称参数洗属性惩罚),绝对值相加,限制参数数值之和,w更加稀疏:指更多零值;虽然L1得到W更稀疏但求导复杂。

L2范数(也称权重衰减),限制参数平方和,平方和开方L2正则化更常用,求导只用到自身。

dropout: keep_prob=0.8(该层有80%神经元的输出随机置0,通过伯努利分布生成向量点乘实现) 。(dropout只是训练模型使用,测试和实际应用模型不需要),相当于多种网络的融合,减少神经元之间依赖性,更加robust.(是一种正则化技巧)。

数据增广 (data augmentation):添加样本噪声和数量。扭曲,翻转,旋转,缩放。

early stopping:随迭代次数增加,训

摘要:数据的上界和下界概念在人工智能领域中使用得非常普 遍,在粗糙集理论中尤为明显,随着粗集理论的不断发展, 上下边界的概念得到更大范围内的应用。本文将经典的神经 网络和粗集理论有机地结合,提出了一种基于粗集理论的神 经网络,并应用神经网络的粗糙模式建立预测模型。在粗糙 模式下每个神经网络的输入值不是一个单值而是一对值,即 上下边界数据,经典的神经网络在预测模型中采用的是单值 数据作为输入值,但是在一些应用中会产生问题,如医院要 对病人进行病情的跟踪观察,并希望对其未来的情况进行预 测,这时经典的神经网络就难以适用了,对于一个病人来 说,心跳次数,脉搏次数,血压值,体温等项指标在一天当 中需要进行几次测试,问题在于对于同一项指标每次测量值 也是不同的,因此得到的是一组数据而非单个数据,由于经 典的神经网络对于外界的信息的传导需要的是单值输入,究 竟应该取测量值中的哪个值作为输入就难以确定,通常的方 法是将测量数据进行数学平均,以均值作为网络的输入,但 是这可能导致具有重要性质数据的泛化,而粗糙集理论则可 以很好地解决这个问题,粗糙集数据的上下边界可以将病人 一天的各项指标测量值的上界和下界数据作为粗糙神经元的 输入。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值