IID 与 Non-IID

最新推荐文章于 2025-03-09 21:05:21 发布

qq_38101208

最新推荐文章于 2025-03-09 21:05:21 发布

阅读量8.7k

点赞数 3

分类专栏：《动手学深度学习》记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38101208/article/details/109275911

版权

《动手学深度学习》记录专栏收录该内容

22 篇文章

订阅专栏

数据独立同分布（Independent Identically Distribution，IID）

数据与数据之间都是独立的，但满足同一个分布。（独立：一个数据的出现不会影响另一个数据）

数据分布描述的是数据的统计情况：横坐标表示所有可能的分类情况，纵坐标表示的是对应分类数据量。

在现实生活中，很多时候，数据可能是围绕着一个中心分布，不偏左、不偏右、也不或高或低，呈现一种中间高、两边低的趋势，我们称之为“正态分布”（也叫“高斯分布”）：

正态分布的简单性质。第一，平均数=中位数=众数；第二，关于中心对称；第三，50%的数据比平均数小，50%的数据比平均数大。

为什么要假设数据是独立和相同分布（i.i.d）

这个假设让maximization在数学上非常容易计算。

观察数学的独立和相同分布（independent and identical distribution）的假设，简化了优化问题中likelihood函数的计算。因为独立性的假设，likelihood函数可以这样写

简而言之，likelihood函数可以简化为

简化后的函数对参数估计很有用。为了最大化观察到的事件的可能性，取log函数，最大化参数θ。

并且从log函数的“乘法变加法”的属性，参数评估θ的方程式简化成

计算机计算多次加法是很高效的，计算乘法并不高效。这一个简化是计算效率提高了核心原因。而这个Log变换也在最大化的过程中，把很多exponential的函数变成线性函数。

并且要完成最大化的倒数第二步，扩展概率函数。以高斯分布为例。为何选择高斯？我将在下面解释。

最后一步是采用log likelihood的导数并找到能最大化log likelihood的μ和sigma.

可用，易用

在这个假设在实际应用中好用

中心极限定理（central limit theorem）+ big data
简单模型+高质量数据=优质的模型

即使样本来自更复杂的非高斯分布，它也能很好地approximate。因为它可以从中心极限定理简化为高斯分布。对于大量可观测的样本，“许多随机变量的总和将具有近似正态的分布”。

model的accuracy取决于model unit的简单性和representative power，以及数据质量。因为unit的简单性使其易于interpret和scale，并且unit的representative power + scale out使得model accuracy提高。像在一个深度神经网络，每个neuron都很简单但有strong representative power，一层一层的来表示更复杂的features，提高model accuracy。

==================================================================================

独立同分布数据，说明我们用来训练的样本点具有较好的总体代表性。

我们要从已有的数据（经验）中总结出规律来对未知数据做决策，如果获取训练数据是不具有总体代表性的，就是特例的情况，那规律就会总结得不好或是错误，因为这些规律是由个例推算的，不具有推广的效果。

通过独立同分布的假设，就可以大大减小训练样本中个例的情形。

==================================================================================

非数据独立同分布（Non - Independent Identically Distribution，Non-IID）

Non-IID的意思即数据之间非独立，或者非同分布。但现实数据一般都是独立的。

数据与数据之间都是独立的，但不满足同一个分布。

实场景中不同设备的数据的质和量都不尽相同，数据很难满足 IID 的前提假设。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。