参数估计评估标准

前言:

           前面对参数进行估计,但是估计出来有不同的参数,

这个参数是否有效,从下面几个给出了答案

         在逻辑回归,通过不同的样本 Train 得到不同的权重系数

可以对权重系数进行归一化,然后通过求各个维度的权限系数的分布函数

对所有维度的分布函数进行乘积。

       综合得到概率最高的权重系数组合

目录

1: 无偏性(数学期望)

2: 有效性(方差)

3: 均方误差

4: 相合性(大数定理)

 


一  无偏性

     参数\theta的估计量\hat{\theta}=\hat{\theta}(x_1,x_2,...x_n)

    如果  E(\hat{\theta}=\theta,则称\hat{\theta}\theta的无偏估计

    例 1 :

           E(\bar{X})=u,E(S^2)=\sigma^2

           则  \bar{X},S^2为 u,\sigma^2的无偏估计

    例2  均匀分布 U(0,\theta),\theta为未知参数,

           2.1 \theta的矩估计是无偏估计

               证明:

                  总体矩: u_1=\int_{0}^{\theta}\frac{1}{\theta}xdx=\frac{\theta}{2}

                   参数估计:\hat{\theta}=2u_1

                   样本矩替代总体矩 \hat{\theta}=2 \bar{X}

                 

                    参数估计: E(\hat{\theta})=2E(X)=\theta

                    所以是无偏估计

           2.2 极大似然估计是无偏的吗?

                      L(x_1,x_2,...x_n,\theta)=\left\{\begin{matrix} \frac{1}{\theta^n},x\in[0,\theta]\\ 0,else \end{matrix}\right.

                     该值要最大,\theta要最小,其最小值为\hat{\theta}=max\begin{Bmatrix} x_1 & x_2 & ... & x_n \end{Bmatrix}

                    Z=max\begin{Bmatrix} x_1 & x_2 &.... & x_n \end{Bmatrix}

                    F(Z)=P(Z<z)=P(x_1<z)..P(x_n<z)=F^n(x)

                   f(z)=\frac{nx^{n-1}}{\theta^n}

                  E(\hat{\theta})=\int_{0}^{\theta}x\frac{nx^{n-1}}{\theta^n}dx

                              =n\theta \int_{0}^{\theta}(\frac{x}{\theta})^nd\frac{x}{\theta}

 

                             =n\theta \int_{0}^{1}t^ndt

                             =\frac{n}{n+1}\theta

                    不是无偏估计,但是当n趋近无穷的时候,是无偏估计,所以是渐进无偏估计。


二 有效性

    如果在无偏性的基础上,参数估计的方差小,则其更有效

    \hat{\theta_1}(x_1,x_2,...x_n)<\hat{\theta_2}(x_1,x_2,...,x_n)

   

     总体X \sim U[0,\theta],x_1,....,x_n 为样本,\hat{\theta_1}=2\bar{x},\hat{\theta_2}=\frac{n+1}{n}x_n

      试问哪个参数更有效

      D(\theta_1)=D(2\bar{X})=4*\frac{\sigma^2}{12}=\frac{\sigma^2}{3}

      D(\theta_2)=\frac{(n+1)^2}{n^2}D(x_n)

    其中 D(x_n)=E(x_n^2)-E^2(x_n)

       =(\frac{n}{n+2}-(\frac{n}{n+1})^2)\theta^2

  所以  D(\hat{\theta_1})=\theta_1^2/(3n)>D(\hat{\theta_2})=\frac{\theta_2^2}{n(n+2)}

  似然估计更有效


三  均方误差

       \hat{\theta}\theta的点估计,方差存在。

       MSE(\hat{\theta})=E(\hat{\theta}-\theta)^2

       如果是无偏估计D(\hat{\theta})=MSE(\hat{\theta})

       相对于之前的,它不需要\theta是无偏性的

      应用: 梯度下降中的损失函数 loss = MSE(\hat{y})=E(\hat{Y}-Y)^2

 

 

      例子: 样本方差S^2和样本二阶中心矩B_2分别作为正态总体\sigma^2进行评估

       解:

            因为   E(S^2)=\sigma^2  ,所以MSEMSE(S^2)=D(S^2)

         因为     \frac{(n-1)S^2}{\sigma^2} \sim \chi (n-1)

         所以 \frac{(n-1)^2}{\sigma^4}D(S^2)=2(n-1)

                D(S^2)=\frac{2\sigma^4}{n-1}

 

         MSE(B_2)=D(B_2)+(E[B_2-\sigma^2])^2

        因为

       B_2=\frac{n-1}{n}S_2

      所以

      D(B_2)=\frac{2(n-1)\sigma^4}{n^2}

     因为

    E(B_2)-\sigma^2=\frac{n-1}{n}E(S^2)-\sigma^2=\frac{-1}{n}\sigma^2

    所以

  (E[B_2-\sigma^2])^2= \sigma^4\frac{1}{n^2}

 

   综合得到 MSE(B_2)=\frac{(2n-1)\sigma^4}{n^2}

   所以均方误差 B_2优于S^2,但是如果样本容量小的时候

由于偏差大,选择S^2


四  相合性

    设参数\hat{\theta}为参数\theta的估计量

    如果P\begin{Bmatrix} \hat{\theta}-\theta \end{Bmatrix}_{n->\infty }=0, 则成为相合估计

   原理: 切比雪夫不等式

                P\begin{Bmatrix} |\hat{\theta}-\theta|>\varepsilon \end{Bmatrix}<\frac{\sigma^2}{n\varepsilon^2 }

   4.1 例: 总体X \sim U[0,\theta],x_1,....,x_n 为样本,\hat{\theta_1}=2\bar{x},\hat{\theta_2}=\frac{n+1}{n}x_n

      求证都是相合估计

 

    证明:

        1   因为 E(\hat{\theta_1})=\theta,所以\hat{\theta_1}=2\bar{x} 为相合估计

        2   E(\hat{\theta_2})=\theta 

              D(\hat{\theta_2})=\frac{\theta_2^2}{n(n+2)}

            根据切比雪夫不等式,当n趋近无穷的时候,为相合估计

      

   

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值