概率统计与机器学习：独立同分布，极大似然估计，线性最小二乘回归

最新推荐文章于 2024-03-21 10:24:44 发布

Kelisita

最新推荐文章于 2024-03-21 10:24:44 发布

阅读量5k

点赞数 4

分类专栏：概率论与数理统计机器学习笔记

本文链接：https://blog.csdn.net/qq_33638791/article/details/75144095

版权

机器学习笔记同时被 2 个专栏收录

42 篇文章 4 订阅

订阅专栏

概率论与数理统计

5 篇文章 2 订阅

订阅专栏

                    
                    独立同分布 
 
独立性 
概念：事件A，B发生互不影响
公式： 
    
    P(XY)=P(X)P(Y) 
    ， 即事件的概率等于各自事件概率的乘积
举例： 
 
  正例：两个人同时向上抛硬币，两个硬币均为正面的概率
反例：狮子在某地区出现的概率为X，老虎出现概率为Y，同时出现的概率并不满足 
      
      P(XY)=P(X)P(Y) 
      ，因为老虎在的地方一般不会有狮子。
 
同分布 
概念：随机变量（序列）在随机过程中有相同的概率分布
 
相关性 
概念：反应随机变量之间相互影响的偏离程度，即协方差。但这里只讨论相关与无关，本质应该为“线性相关”，因此“不相关”本意指“线性不相关”。
公式： 
    
    Cov(x,y)=E(xy)−E(x)E(y)=0 
   
定理：独立一定不相关，但不相关不一定独立
举例： 
 
  不独立相关： 
 
    图例：
分析：为了简便理解我们假设有一个线性关系 
        
        y=x 
       ，现在有N个随机变量分布在其中（想象还有第3维平面因此存在很多随机变量），先分析独立性：由于当x增大y也跟增大，x减小y跟着减小，因此不具备独立性；相关性：套用公式 
        
        Cov(x,y)=E(xy)−E(x)E(y) 
       ，在这个线性function里 
        
        x=y 
       ，因此  
        
        E(xy)=1N∑Ni=1x2i 
        ，  
        
        E(x)E(y)=1N∑Ni=1xi∗1N∑Nj=1yj=1N2∑Ni=1∑Nj=1xiyj 
        ， 相减不为0因此他们线性相关。
不独立不相关 
 
    图例：
分析：这个分布就四个点，讨论独立性：当 
        
        x=1−>y=1||y=−1 
         
        x=−1−>y=1||y=−1 
        ， 很显然当知道x的值，y的值就已经被确定了，因为它们不独立。讨论相关性：引入定理， 
        
        E(xy)=1N∑Ni=1xiyi=0 
        ，  
        
        E(x)E(y)=12∑2i=1xi∗12∑2j=1yj=0 
       （因为实际只有2组值），由此可得  
        
        cov(x,y)=0 
       ，因此为不相关的。 
结论：判断独立性就看它的取值是否有联系，判断线性相关就看整体分布是否存在一个线性趋势。其中还有独立相关，不独立相关等以此类比即可。
 
极大似然估计 
原理：给定一个概率分布 
    
    D 
   ，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为fD，以及一个分布参数 
    
    θ 
   ，我们可以从这个分布中抽出一个具有  
    
    n 
    个值的采样X1,X2,...,Xn，利用  
    
    fD 
    计算其概率 
    
    P(x1,x2,...,xn)=fD(x1,x2,...,xn|θ) 
   。但是实际上可能并不知道 
    
    θ 
   的值，因此我们可以先进行抽取采样，然后根据当前的样本来估计 
    
    θ 
   ，而最大似然估计就是得到一个可能性最大的对 
    
    θ 
    的估计。
定义似然函数： 
    
    lik(θ)=fD(x1,x2,...,xn|θ) 
    ， 令一阶导数为0就可以得到函数最大值即极大似然估计。（显然，在极值处导数为0，因此在该分布函数上一般也满足当导数为0存在极值）
区分  
    
    p(x|θ) 
    和  
    
    p(θ|x) 
   ： 
 
  前者是极大似然估计的概率，即我们有这个参数 
      
      θ 
     的情况下可以选到该组观测值的概率，而极大似然估计的目的是给定一组观测值和分布表达式 
      
      f(θ) 
     求解参数 
      
      θ 
     。换言之，我们已经有了观测值，才能去对它进行似然。
后者与极大似然无关，它解释的是我们已经有了观测序列x能观测到该参数的概率。换言之，我们有了观测序列求解它是什么分布的概率，这不对应机器学习的思想，因为机器学习的思想是已知分布去求解最好参数，
举例：给定一组手写数字识别的样本，假设其中的“6”服从多元高斯分布，问均值和协方差矩阵各是多少？ 
 
  分布律： 
      
      N(x|μ,Σ)=1(2π)D/21(|Σ|)1/2exp{−12(x−μ)TΣ−1(x−μ)} 
     
极大似然的结果： 
 
    均值： 
        
        μ^=1N∑Ni=1xi 
       
协方差矩阵： 
        
        Σ^=1N∑Ni=1(x−μ^)(x−μ^)T 
       
推导：（在概率统计问题中，肯定是要先假设或确保该模型以独立同分布为基础） 
 
    极大似然估计： 
        
        L(x|μ,Σ)=p(x1,x2,...,xn)=∏Ni=1p(xi|μ,Σ) 
       
 但是相乘关系非常的难求导，又因为满足独立同分布（即每个观测值都要满足该序列分布） 
 因此通常会采用对其求对数的方法得到相加后再求导（因为分布的单调一致性决定了它不会改变极值的位置） 
 得到下式： 
 
        maxμ,Σ∏Ni=1p(xi|μ,Σ)→maxμ,Σ∑Ni=1ln(p(xi|μ,Σ)) 
       
 将分布律带入到p概率中得到完全式： 
 
         L(μ,Σ)=∑i=1Nln(1(2π)D/2|Σ|1/2exp{−12(xi−μ)|Σ|−1(xi−μ)})=−ND2ln(2π)−N2ln(|Σ|)−12∑i=1N(xi−μ)TΣ−1(xi−μ) 
         
 我们想得到最大参数，只需对其各部分求偏导即可： 
 1.均值： 
 
        ∂L(μ,Σ)∂μ=−ND2ln(2π)−N2ln(|Σ|)−12∑Ni=1(xi−μ)TΣ−1(xi−μ)∂μ=0 
       
 讲上式拆解：由于常数求导为0，所以前两项为0，而求导中常数项系数可以提取，并且矩阵乘法可 
 
        −12Σ−1∑Ni=1(xi−μ)2∂μ=0 
       
 由于 a*b = 0 ， 且a≠0，因此b为0的思想可以知道，正定矩阵不为零矩阵 
 
        −12∗2∗∑Ni=1(xi−μ)=0 
       
        (x1−μ)+(x2−μ)+...+(xn−μ)=0 
       
        Nμ=∑Ni=1xi 
       
        μ^=1N∑Ni=1xi 
       
 2.协方差矩阵 
 
        ∂L(μ,Σ)∂Σ=0 
       
        ∂L(μ,Σ)∂Σ=−ND2ln(2π)−N2ln(|Σ|)−12∑Ni=1(xi−μ)TΣ−1(xi−μ)∂Σ=0 
       
 带 
        
        Σ 
       的都会被求导 因此第二项为： 
        
        −N2|Σ| 
       
 第三项除去 
        
        Σ 
       都为常数因此只对其求导有效： 
        
        12∑Ni=1(xi−μ)T1Σ2(xi−μ) 
       
        −N2|Σ|−12∑Ni=1(xi−μ)T1Σ2(xi−μ)=0 
       
        NΣ=∑Ni=1(xi−μ)T(xi−μ) 
       
        Σ^=1N∑Ni=1(xi−μ)T(xi−μ) 
       
线性最小二乘回归 
(Linear Least Square Regression) 
目的：求出一组w使线性函数尽可能的拟合所有点 
误差公式： 
   
   minwE=∑Ni=1(yi−f(x,w))2 
   
其中 
   
   f(x,w)=w1x1+...+wnxn+b 
  （b为偏置值，n为纬度） 
上式一般会被叫做平方误差函数，因此我们假设误差服从0均值等方差的高斯分布  
   
   e=y−f(x,w)∼N(0,σ2) 
   (注：前面有说过，均值就是偏移程度，这里0均值就是抽象成该线性关系刚好穿过坐标轴中心） 
 
1.思考：为什么要如此定义方差误差函数？ 
解答：似然函数思想，我们有模型参数W在为何值的时候可以让误差e尽可能的满足假设的高斯分布（不同的参数W会有不一样的形态，可以想成y=kx+b中的k），满足该高斯分布的意思就是这条线尽可能的拟合这些观测点，因为有似然函数 
   
   L(e|w) 
  ， 
   
   e 
  为我们定义的偏差，w为我们想要的权值。 
推导：（该处使用了对数似然函数，并不影响求极值） 
 
（我们想要极大似然估计，Ｌ就要最大，那么后部分最小，由于 
   
   σ 
  是常数，因此只要 
   
   e 
  最小就可以得到L最大）

得：maxwL(e|w)→minw∑Ni=1e2i ，这就是平方误差函数的由来 
2.思考：如果不是满足高斯分布而是拉普拉斯分布呢？ 
公式： 
   
   p(ei)=12bexp(−|ei|b) 
   
似然函数： 
同理，我们要参数尽可能的拟合即满足极大似然估计，因此后面最小，得到 
   
   maxwL(e|w)→minw∑Ni=1|ei| 
   ， 
那么服从拉普拉斯分布的误差函数就是： 
   
   minwE=∑Ni=1|yi−f(x,w)| 
   
3.不同分布他们得到的误差函数之间的区别是什么？ 
答：首先，我们知道误差天然服从正态分布，但是如果噪点比较远，那么平方带来的误差就会非常的大，影响到最终的拟合曲线，而此时拉普拉斯分布的鲁棒性更强一些，得到的误差更稳定一些。 
最小二乘回归： 
当f为线性函数的时候， 
   
   f(x,w)=wTx 
   
此时平方误差函数可以改写为  
   
   minwE=||y−wTX||22 
  ，也就是各项相乘后相加，都是行向量，我们已知labels为y，观测点为x ，重点是这里有N个样本，而每个样本有D维！ 
 
   ∂E∂w=0 
   处有极值 ， 化简后可得  
   
   w∗=(XXT)−1XyT 
   
证明：（二次型求导的方法） 
原式为： 
   
   J=(wTX−y）(wTX−y)T=wTXXTw−2yXTw+yyT 
   
因为矩阵求导中： 
   
   Aw 
  对w求导得到 
   
   AT 
   
因此上式对 
   
   w 
  求导 :  2XXTw−2XyT=0 
两边化简移项得  
   
   w∗=(XXT)−1XyT 
   
附赠最小二乘回归的四种形式：

Kelisita

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
概率统计与机器学习：独立同分布，极大似然估计，线性最小二乘回归

独立同分布独立性概念：事件A，B发生互不影响公式：P(XY)=P(X)P(Y)P(XY)=P(X)P(Y) ，即事件的概率等于各自事件概率的乘积举例：正例：两个人同时向上抛硬币，两个硬币均为正面的概率反例：狮子在某地区出现的概率为X，老虎出现概率为Y，同时出现的概率并不满足P(XY)=P(X)P(Y)P(XY)=P(X)P(Y) ，因为老虎在的地方一般不会有狮子。同分布概念：随机变
复制链接

扫一扫