机器学习问答

最新推荐文章于 2024-04-30 17:01:12 发布

遨游的菜鸡

最新推荐文章于 2024-04-30 17:01:12 发布

阅读量391

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34405401/article/details/117437108

版权

机器学习中，训练数据和测试数据需服从相同分布以确保模型泛化能力。这是因为训练是基于历史数据，而预测针对未来数据，两者分布一致能确保模型有效性。然而，现实中由于时间因素可能导致分布差异，导致预测困难。独立同分布假设用于样本抽取，减少特例影响，保证模型学习的规律具有代表性。汉明距离和编辑距离是衡量字符串差异的方法，前者关注向量差异，后者关注转换速度。数据平滑则用于处理0概率问题。

摘要由CSDN通过智能技术生成

文章目录

1.为什么机器学习的训练数据和测试数据要服从相同分布？

通俗理解：
机器学习就是利用当前获取到的信息（或数据）进行训练学习，用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上，采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性，所以历史数据(训练数据)和测试数据要服从相同分布。
原文链接：https://blog.csdn.net/Metal1/article/details/90813359

学术回答：
这里的分布指的是什么？

对于supervised learning，分布是指关于特征X和结果Y的联合分布F(X,Y)或者条件 F(Y|X)。我们说训练集和测试集服从同分布的意思是训练集和测试集都是由服从同一个分布的随机样本组成的，也就是
(X_train,Y_train),(X_test,Y_test) i.i.d. ∼F(X,Y)

对于unsupervised learning，分布是指特征X的分布F(X)，也就是
(X_train,X_test) i.i.d. ∼F(X)

补充几句：
但是现实中比较难做到这点，特别是当训练集是过去的数据，测试集是当下的数据，由于时间的因素，它们很可能不是完全同分布的，这就增加了预测难度。

这也是为什么一般交叉验证的误差往往小于实际的测试误差。因为交叉验证中每折数据都是来自训练集，它们肯定是同分布的。

如果训练集和测试集的分布风马牛不相及，那么根据训练集学习得到的模型在测试集上就几乎没有什么用了。所以我们训练模型和应用模型时一个重要的前提假设就是训练集和测试集是同分布的。

另外一个方面是牵涉到过拟合问题，即使训

最低0.47元/天解锁文章

遨游的菜鸡

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习问答

文章目录1.为什么机器学习的训练数据和测试数据要服从相同分布？2.为什么假设数据服从独立同分布3.汉明距离和编辑距离4.数据平滑1.为什么机器学习的训练数据和测试数据要服从相同分布？通俗理解：机器学习就是利用当前获取到的信息（或数据）进行训练学习，用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上，采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性，所以历史数据(训练数据)和测试数据要服从相同分布。原文链接：https://blog.csdn.net/Metal1/arti
复制链接

扫一扫

专栏目录

遨游的菜鸡 CSDN认证博客专家 CSDN认证企业博客

码龄8年

154: 原创

22万+: 周排名

117万+: 总排名

24万+: 访问

: 等级

2661: 积分

81: 粉丝

155: 获赞

37: 评论

753: 收藏

私信

关注

热门文章

分类专栏

python 26篇
深度学习 7篇
MySQL 4篇
paper 6篇
主动学习 4篇
pytorch 14篇
杂记 16篇
机器学习 7篇
算法与数据结构 9篇
项目实训 9篇
c++ 9篇
机器学习周志华(西瓜书) 11篇
前端 4篇
requests 5篇
scrapy 5篇
CS224N NLP 5篇
统计学习方法 11篇
tensorflow 12篇
kaggle 2篇

最新评论

解决深度学习PyTorch，TensorFlow中GPU、CPU利用率较低的问题
Tengfei Wang: 我们两个的GPU加速明显能对比出差距，我的慢很多
解决深度学习PyTorch，TensorFlow中GPU、CPU利用率较低的问题
Tengfei Wang: 而且我们的深度学习环境也都是一样的，cuda、cudnn、torch等环境都完全一样，为什么会出现了利用率一个为0一个为100%的两种情况呢？
解决深度学习PyTorch，TensorFlow中GPU、CPU利用率较低的问题
Tengfei Wang: 同样的模型，同样的电脑配置，同样的显卡驱动，为什么我的显卡利用率一直是0，显存能吃满，而别人的利用率一直是100%？
主动学习框架
境界面上的双曲线: 博主，我想请问一下，如果我们自己建立一个深度学习模型与主动学习器结合，在不断往训练集里面加新的数据的过程中，我们如何才能知道自己的深度学习模型里的参数才是最优的呢？因为单独使用深度学习的时候，我们会多次训练调参以尽量达到最优参数，但是与主动学习结合加新数据的过程中，我们并不知道自己的模型参数是不是最优的，如果在不断加新数据的过程中调参数的话，感觉前后查询数据的模型就变了（相同模型不同参数）
主动学习框架
境界面上的双曲线: 请问一下你知道结果了吗？回归模型是不是这些查询策略都不适用啊？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。