数据独立同分布(Independent Identically Distribution,IID)
数据与数据之间都是独立的,但满足同一个分布。(独立:一个数据的出现不会影响另一个数据)
数据分布描述的是数据的统计情况:横坐标表示所有可能的分类情况,纵坐标表示的是对应分类数据量。
在现实生活中,很多时候,数据可能是围绕着一个中心分布,不偏左、不偏右、也不或高或低,呈现一种中间高、两边低的趋势,我们称之为“正态分布”(也叫“高斯分布”):
正态分布的简单性质。第一,平均数=中位数=众数;第二,关于中心对称;第三,50%的数据比平均数小,50%的数据比平均数大。
为什么要假设数据是独立和相同分布(i.i.d)
这个假设让maximization在数学上非常容易计算。
观察数学的独立和相同分布(independent and identical distribution)的假设,简化了优化问题中likelihood函数的计算。因为独立性的假设,likelihood函数可以这样写
简而言之,likelihood函数可以简化为
简化后的函数对参数估计很有用。 为了最大化观察到的事件的可能性,取log函数,最大化参数θ。
并且从log函数的“乘法变加法”的属性,参数评估θ的方程式简化成
计算机计算多次加法是很高效的,计算乘法并不高效。这一个简化是计算效率提高了核心原因。而这个Log变换也在最大化的过程中,把很多exponential的函数变成线性函数。
并且要完成最大化的倒数第二步,扩展概率函数。 以高斯分布为例。 为何选择高斯? 我将在下面解释。
最后一步是采用log likelihood的导数并找到能最大化log likelihood的μ和sigma.
可用,易用
在这个假设在实际应用中好用
- 中心极限定理(central limit theorem)+ big data
- 简单模型+高质量数据=优质的模型
即使样本来自更复杂的非高斯分布,它也能很好地approximate。 因为它可以从中心极限定理简化为高斯分布。 对于大量可观测的样本,“许多随机变量的总和将具有近似正态的分布”。
model的accuracy取决于model unit的简单性和representative power,以及数据质量。 因为unit的简单性使其易于interpret和scale,并且unit的representative power + scale out使得model accuracy提高。 像在一个深度神经网络,每个neuron都很简单但有strong representative power,一层一层的来表示更复杂的features,提高model accuracy。
==================================================================================
独立同分布数据,说明我们用来训练的样本点具有较好的总体代表性。
我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果。
通过独立同分布的假设,就可以大大减小训练样本中个例的情形。
==================================================================================
非数据独立同分布(Non - Independent Identically Distribution,Non-IID)
Non-IID的意思即数据之间非独立,或者非同分布。但现实数据一般都是独立的。
数据与数据之间都是独立的,但不满足同一个分布。
实场景中不同设备的数据的质和量都不尽相同,数据很难满足 IID 的前提假设。