标签: 机器学习
概率分布
这章主要介绍一些常用的分布模型。
对于变量x的N次观测形成独立同分布的向量 x⃗ =(x1,...,xN) ,以此对x做一个密度估计,求出 p(x) .
密度估计⎧⎩⎨⎪⎪⎪⎪参数方法⎧⎩⎨⎪⎪给出分布形式,通过最大似然、最大后验等调整参数大小(多为指数族分布) 离散变量:二项式、多项式分布 连续变量:Gauss分布非参数方法:直方图、最近邻、核函数等
参数方法
由最基本的概率模型可以给出函数表达式,而其中的参数则由样本数据训练出来。
二项式分布
自变量只能取0或1
- 伯努利分布
Bern(x|μ)=μx(1−μ)1−x在设定参数 μ 后,x的概率密度如上。解决了投掷一次硬币的问题。由经典概率论中求最大似然的方法可知μML=1N∑xn因此这个求和就是该分布下的充分统计量1。
- 二项分布
Bin(m|N,μ)=CmNμm(1−μ)N−m是伯努利分布的扩展,相当于做了N次投掷操作,且每次的值是独立同分布的。令 m=1N∑xn ,可以通过样本空间来推出上面公式,并由期望的加法操作得到m的期望 E[m]=Nμ 。
但在小数据时,这些由经典概率论得到的参数容易过拟合。例如只投了三次硬币且恰好都为正,那么之后每次投正的概率是1。然而这和常理不符。因此需要贝叶斯的方法来重新解决这个问题。 - Beta分布2
Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1这里先给定似然是正比于 μx(1−μ)1−x 的,再有先验是正比于 μa−1(1−μ)b−1 的,那么由于共轭性,后验正比于 μm+a−1(1−μ)l+b−1 ,而前面的归一化参数则可以通过积分确定。其中 l=N−m 。
由于一开始可以初始化参数a,b,可以减少过拟合的发生。数据集越大,参数方差越小,参数也越来越确定。前一个实验的后验会作为后一个实验的先验,逐步提高准确性。并且这种顺序方法只依赖于数据的独立性,不必存储数据,只需要流水线地处理数据修正参数即可。
在平均意义上,频率学同样可以解释参数的方差为什么越来越小varθ[θ]=ED[varθ[θ|D]]+varθ[Eθ[θ|D]]≥ED[varθ[θ|D]]即前验参数方差大于后验参数方差的均值。
多项式分布
变量取值可以有K个但每次只能取一个,则可以用K维向量来表示,取第k个结果则将对应第k维标1,其余标0。满足 x⃗ =(0,...,1,...,0)T且∑xk=1 ,可得先验
p(x⃗ |μ⃗ )=Πμ