初探神经网络-A Neural Network Playground -part1-CSDN博客
初探神经网络-A Neural Network Playground -part3-CSDN博客
这是playground的第二部分,主要讲述神经网络的内容和训练。
3.神经网络构建

界面内容从左到右分别是Data(数据)、Features(输入特征)、Hidden layers(隐藏层)、Output(输出)四个部分。
3.1数据设置(Data)

3.1.1数据集(Dataset)
数据集是深度学习中使用的样本,一般包含两个用途,一个是训练模型,占比较大;另一个是测试模型,占比较小,但结果是用来证明该模型的有效性。数据集的大小和质量对模型训练结果有直接的影响,因此目前开发的很多算法在比较时都是基于同样的数据集。
数量较少的数据集可以生成,使用随机函数再进行变换,得到想要的数据。
网页上的显示:Which dataset do you want to use?(你想用哪种数据集),内容参考2.2.5,这里是选择用于训练和测试的数据集。
3.1.2训练与测试比(Ratio of training to test data)
数据集通常是放在一起的,然后再根据一定规则划分训练集和测试集等。神经网络中训练集与测试集的划分比例通常为:
划分比例
适用于数据量较小(万级以下):
60%训练集、20%验证集、20%测试集
大数据量(百万级以上):
98%训练集、1%验证集、1%测试集
更大数据量的情况:
99.5%训练集、0.25%验证集(或0.4%验证集)、0.25%测试集(或0.1%测试集)
划分原则
- 验证集用于调整超参数(如学习率、网络结构),需独立于训练集以避免过拟合
- 测试集仅用于评估模型泛化能力,不参与任何模型调整过程
- 数据划分需确保训练集、验证集、测试集来自同一分布
调整建议
- 数据量小时,可适当增加验证集比例以减少

最低0.47元/天 解锁文章
1579

被折叠的 条评论
为什么被折叠?



