概率统计与机器学习:独立同分布,极大似然估计,线性最小二乘回归

独立同分布


独立性

  • 概念:事件A,B发生互不影响
  • 公式: P(XY)=P(X)P(Y) , 即事件的概率等于各自事件概率的乘积
  • 举例:
    • 正例:两个人同时向上抛硬币,两个硬币均为正面的概率
    • 反例:狮子在某地区出现的概率为X,老虎出现概率为Y,同时出现的概率并不满足 P(XY)=P(X)P(Y) ,因为老虎在的地方一般不会有狮子。

同分布

  • 概念:随机变量(序列)在随机过程中有相同的概率分布

相关性

  • 概念:反应随机变量之间相互影响的偏离程度,即协方差。但这里只讨论相关与无关,本质应该为“线性相关”,因此“不相关”本意指“线性不相关”。
  • 公式: Cov(x,y)=E(xy)E(x)E(y)=0
  • 定理:独立一定不相关,但不相关不一定独立
  • 举例:
    • 不独立相关:
      • 图例:
      • 分析:为了简便理解我们假设有一个线性关系 y=x ,现在有N个随机变量分布在其中(想象还有第3维平面因此存在很多随机变量),先分析独立性:由于当x增大y也跟增大,x减小y跟着减小,因此不具备独立性;相关性:套用公式 Cov(x,y)=E(xy)E(x)E(y) ,在这个线性function里 x=y ,因此 E(xy)=1NNi=1x2i E(x)E(y)=1NNi=1xi1NNj=1yj=1N2Ni=1Nj=1xiyj , 相减不为0因此他们线性相关。
    • 不独立不相关
      • 图例:
      • 分析:这个分布就四个点,讨论独立性:当 x=1>y=1||y=1 x=1>y=1||y=1 , 很显然当知道x的值,y的值就已经被确定了,因为它们不独立。讨论相关性:引入定理, E(xy)=1NNi=1xiyi=0 E(x)E(y)=122i=1xi122j=1yj=0 (因为实际只有2组值),由此可得 cov(x,y)=0 ,因此为不相关的。
    • 结论:判断独立性就看它的取值是否有联系,判断线性相关就看整体分布是否存在一个线性趋势。其中还有独立相关,不独立相关等以此类比即可。

极大似然估计

  • 原理:给定一个概率分布 D ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为fD,以及一个分布参数 θ ,我们可以从这个分布中抽出一个具有 n 个值的采样X1,X2,...,Xn,利用 fD 计算其概率 P(x1,x2,...,xn)=fD(x1,x2,...,xn|θ) 。但是实际上可能并不知道 θ 的值,因此我们可以先进行抽取采样,然后根据当前的样本来估计 θ ,而最大似然估计就是得到一个可能性最大的对 θ 的估计。
  • 定义似然函数: lik(θ)=fD(x1,x2,...,xn|θ) , 令一阶导数为0就可以得到函数最大值即极大似然估计。(显然,在极值处导数为0,因此在该分布函数上一般也满足当导数为0存在极值)
  • 区分 p(x|θ) p(θ|x)
    • 前者是极大似然估计的概率,即我们有这个参数 θ 的情况下可以选到该组观测值的概率,而极大似然估计的目的是给定一组观测值和分布表达式 f(θ) 求解参数 θ 。换言之,我们已经有了观测值,才能去对它进行似然。
    • 后者与极大似然无关,它解释的是我们已经有了观测序列x能观测到该参数的概率。换言之,我们有了观测序列求解它是什么分布的概率,这不对应机器学习的思想,因为机器学习的思想是已知分布去求解最好参数,
  • 举例:给定一组手写数字识别的样本,假设其中的“6”服从多元高斯分布,问均值和协方差矩阵各是多少?
    • 分布律: N(x|μ,Σ)=1(2π)D/21(|Σ|)1/2exp{12(xμ)TΣ1(xμ)}
    • 极大似然的结果:
      • 均值: μ^=1NNi=1xi
      • 协方差矩阵: Σ^=1NNi=1(xμ^)(xμ^)T
    • 推导:(在概率统计问题中,肯定是要先假设或确保该模型以独立同分布为基础)
      • 极大似然估计: L(x|μ,Σ)=p(x1,x2,...,xn)=Ni=1p(xi|μ,Σ)
        但是相乘关系非常的难求导,又因为满足独立同分布(即每个观测值都要满足该序列分布)
        因此通常会采用对其求对数的方法得到相加后再求导(因为分布的单调一致性决定了它不会改变极值的位置)
        得到下式:
        maxμ,ΣNi=1p(xi|μ,Σ)maxμ,ΣNi=1ln(p(xi|μ,Σ))
        将分布律带入到p概率中得到完全式:
        L(μ,Σ)=i=1Nln(1(2π)D/2|Σ|1/2exp{12(xiμ)|Σ|1(xiμ)})=ND2ln(2π)N2ln(|Σ|)12i=1N(xiμ)TΣ1(xiμ)

        我们想得到最大参数,只需对其各部分求偏导即可:
        1.均值:
        L(μ,Σ)μ=ND2ln(2π)N2ln(|Σ|)12Ni=1(xiμ)TΣ1(xiμ)μ=0
        讲上式拆解:由于常数求导为0,所以前两项为0,而求导中常数项系数可以提取,并且矩阵乘法可
        12Σ1Ni=1(xiμ)2μ=0
        由于 a*b = 0 , 且a≠0,因此b为0的思想可以知道,正定矩阵不为零矩阵
        122Ni=1(xiμ)=0
        (x1μ)+(x2μ)+...+(xnμ)=0
        Nμ=Ni=1xi
        μ^=1NNi=1xi
        2.协方差矩阵
        L(μ,Σ)Σ=0
        L(μ,Σ)Σ=ND2ln(2π)N2ln(|Σ|)12Ni=1(xiμ)TΣ1(xiμ)Σ=0
        Σ 的都会被求导 因此第二项为: N2|Σ|
        第三项除去 Σ 都为常数因此只对其求导有效: 12Ni=1(xiμ)T1Σ2(xiμ)
        N2|Σ|12Ni=1(xiμ)T1Σ2(xiμ)=0
        NΣ=Ni=1(xiμ)T(xiμ)
        Σ^=1NNi=1(xiμ)T(xiμ)

线性最小二乘回归

(Linear Least Square Regression)

目的:求出一组w使线性函数尽可能的拟合所有点

误差公式: minwE=Ni=1(yif(x,w))2

其中 f(x,w)=w1x1+...+wnxn+b (b为偏置值,n为纬度)
上式一般会被叫做平方误差函数,因此我们假设误差服从0均值等方差的高斯分布 e=yf(x,w)N(0,σ2) (注:前面有说过,均值就是偏移程度,这里0均值就是抽象成该线性关系刚好穿过坐标轴中心)

1.思考:为什么要如此定义方差误差函数?
解答:似然函数思想,我们有模型参数W在为何值的时候可以让误差e尽可能的满足假设的高斯分布(不同的参数W会有不一样的形态,可以想成y=kx+b中的k),满足该高斯分布的意思就是这条线尽可能的拟合这些观测点,因为有似然函数 L(e|w) e 为我们定义的偏差,w为我们想要的权值。
推导:(该处使用了对数似然函数,并不影响求极值)
(我们想要极大似然估计,L就要最大,那么后部分最小,由于 σ 是常数,因此只要 e 最小就可以得到L最大)

得:maxwL(e|w)minwNi=1e2i ,这就是平方误差函数的由来

2.思考:如果不是满足高斯分布而是拉普拉斯分布呢?
公式: p(ei)=12bexp(|ei|b)
似然函数:
同理,我们要参数尽可能的拟合即满足极大似然估计,因此后面最小,得到 maxwL(e|w)minwNi=1|ei|
那么服从拉普拉斯分布的误差函数就是: minwE=Ni=1|yif(x,w)|
3.不同分布他们得到的误差函数之间的区别是什么?
答:首先,我们知道误差天然服从正态分布,但是如果噪点比较远,那么平方带来的误差就会非常的大,影响到最终的拟合曲线,而此时拉普拉斯分布的鲁棒性更强一些,得到的误差更稳定一些。

最小二乘回归:

当f为线性函数的时候, f(x,w)=wTx
此时平方误差函数可以改写为 minwE=||ywTX||22 ,也就是各项相乘后相加,都是行向量,我们已知labels为y,观测点为x ,重点是这里有N个样本,而每个样本有D维!
Ew=0 处有极值 , 化简后可得 w=(XXT)1XyT
证明:(二次型求导的方法)
原式为: J=(wTXy(wTXy)T=wTXXTw2yXTw+yyT
因为矩阵求导中: Aw 对w求导得到 AT
因此上式对 w 求导 : 2XXTw2XyT=0
两边化简移项得 w=(XXT)1XyT
附赠最小二乘回归的四种形式:
  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kelisita

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值