12 机器学习系统机器学习数据

最新推荐文章于 2024-05-10 09:22:41 发布

峰峰jack

最新推荐文章于 2024-05-10 09:22:41 发布

阅读量513

点赞数

分类专栏：机器学习文章标签：机器学习深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elecjack/article/details/119918369

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

训练数据量决定效果上限：有的时候，使用什么算法并无关紧要，关键是使用了多大的数据量进行训练。如下图所示的nlp预测场景，四种算法随着训练数据量的增加，其准确率相应增加。而不同算法尽管有一些差异，但远没有数据量的影响那么大。
在这里插入图片描述
除了训练数据量是否足够，另一个重要方面是特征信息是否充分。
一个有用的测试是：在给定的特征之下，人类专家能否有信心给出正确的预测？如果可以，那说明我们提供的特征信息足够充分；否则，说明我们提供的特征数据不够。特征信息充分，模型才可能做出正确预测；不充分，人类都无法做出正确预测，则大概率模型也不可能做出正确预测。
在这里插入图片描述
当我们使用足够复杂的模型（比如：有很多特征的lr或者有很多隐藏层的神经网络），bias通常来说就能控制到比较小的程度。
当训练数据量很小甚至小于模型参数量时，此时模型容易发生过拟合，模型的方差会比较大。而当训练数据量远大于模型参数量时，此时模型不易发生过拟合，模型的方差会比较小。
所以方差大并不是针对算法而言，算法无所谓方差大或方差小。方差描述的是在特定数据集下训练出来的模型的变异性，也就是数据中的噪点对于模型稳定性的影响。这个影响越小则方差越小，影响越大则方差越大。数据量大时，模型的方差更可能会比较小；数据量太小时，模型的方差可能会很大，此时任何一个数据点对于模型参数的影响都非常巨大。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
12 机器学习系统机器学习数据

训练数据量决定效果上限：有的时候，使用什么算法并无关紧要，关键是使用了多大的数据量进行训练。如下图所示的nlp预测场景，四种算法随着训练数据量的增加，其准确率相应增加。而不同算法尽管有一些差异，但远没有数据量的影响那么大。除了训练数据量是否足够，另一个重要方面是特征信息是否充分。一个有用的测试是：在给定的特征之下，人类专家能否有信心给出正确的预测？如果可以，那说明我们提供的特征信息足够充分；否则，说明我们提供的特征数据不够。特征信息充分，模型才可能做出正确预测；不充分，人类都无法做出正确预测，则大概率
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。