接下来就可以很快地把Chapitre4过掉了
先是多变量线性回归模型的栗子,看课件就好了,没什么重要的。
必须强调,类似于柯布道格拉斯生产函数的非线性函数我们也可以将其对数化弄成参数线性的。
然后是偏回归系数的定义:就是包含截距项在内的参数
βi|i=0,1,…,k
;然后是斜率系数,就是从
β1
开始不包括截距项的系数,两者的关系是
打集合太麻烦了,就这么看着吧
考试应该会考到的 βi 的定义:就是其他变量保持不变时, Xi 每改变一个单位时,对Y的期望(均值)的影响
随机干扰项的假定也和前面高斯-马尔科夫假设一样的
无非就是期望 方差 独立性(两条) 随机取样(两条)什么的都要满足
然后是对参数的估算
和前面的一样,两种OLS估法,最小二乘法和矩估算法
1.最小二乘法就是令其残差平方和最小,就是最小化
∑u^2i
然后我们必须要令每一个参数的偏导为零
一种是教案上的表示方法,非常复杂,但是采用矩阵形式就非常简洁
我们先令
X=⎛⎝⎜⎜⎜⎜⎜⎜⎜111⋮1x11x21x31⋮xn1x12x22x32⋮xn2x13x23x33⋮xn3⋯⋯⋯⋱⋯x1kx2kx3k⋮xnk⎞⎠⎟⎟⎟⎟⎟⎟⎟
,
y=⎛⎝⎜⎜⎜⎜⎜⎜⎜y1y2y3⋮yn⎞⎠⎟⎟⎟⎟⎟⎟⎟
,
β^=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜β^1β^2β^3⋮β^n⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟
,,
μ^=⎛⎝⎜⎜⎜⎜⎜⎜⎜μ^1μ^2μ^3⋮μ^n⎞⎠⎟⎟⎟⎟⎟⎟⎟
然后就有
所以最小二乘表示为
然后展开可以获得
由于 yTXβ^=β^TXTy
所以式子化简为
然后对 β^ 求偏导
所以解得
接下来是残差和拟合值的统计特性问题
这里开始就是要为模型稳健性检验做铺垫
首先我们有如下两个概念:
预计值:
残差:
其次就是几个残差的特性:
残差和为0,所以回归是过均值点的,然后是残差是独立的,其与自变量的协方差就是0.
之后是稳健性检验的几个话题
第一个要素是TSS就是总离差平方和的分解
跟之前的方差的分解一样,我们有
即
解释平方和的构成什么的,看看课件就好了,应该不会考吧
也就是把y用x带掉做成离差形式而已
然后为了稳健性检验,其中很重要的一个概念就是在做方差检验时的,F分布的自由度选择问题
首先是判定系数 R2 和调整过的判定系数 R¯2 (在STATA中被叫为 adj−R2 )
然后是判定系数的定义
就是模型中有多少量可以被解释,量越高,拟合优度越高
有以下两点原因,一是我们在计算的时候就是把残差平方和最小化的,这样会影响模型原本显著性检验;再者是我们如果加入新的变量,无论该变量是否相关都会减少残差平方和的自由度而增加判定系数,但是这是不符合我们的研究目的的,所以我们要通过自由度
f
对各个平方差进行调整。
之后引出了调整的判定系数
貌似教案上又错了╮(╯_╰)╭
或者我们可以跟教案上一样把后面的RSS/TSS部分用 R2 表示掉,然后用 R2 表示出 R¯2
之后是估算的无偏性,还是马尔科夫定理
线性,抽样(随机抽样和满秩),期望(干扰项同自变量,干扰项同干扰项之间均独立,期望为0),方差(条件方差不变即同方差性),就四个方面,六点。
满秩的话就是说各组X取值不线性相关,为什么呢?这就可以直接用前面的矩阵来说,不满秩就没有逆矩阵了啊(手动斜眼XD)
然后重点来了
就是对估计的参数进行检验
我们通过以上假设可以求得
TSSK 不是 TSS 啊,是自变量 xk 的离差平方和 ∑x¨2k
而 R2k 是把 xk 作为因变量然后做其他变量的回归得出的判定系数, 必须注意区别
然后这个还是未完成体,因为我们在大多数时候是不知道方差的,我们必须要对 σ2 进行估计
然后对
σ2
的估计我们可以用
这是一个无偏估计量,很好记 k=1时,自由度是n-2;k=0时,则是前面样本方差的自由度n-1
然后各参数的方差和标准差都可以表示出来了,注意,回报回归结果的时候都要写上
在高斯马儿克夫假设下,这估算了是最佳的,BestLinearUnbiasedEstimateur,BLUE,,即最佳无偏估算量,即是有效性
证明过程就略了
看看课件就行了
to be continue…