matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗

点击蓝字 关注我们

1

样本与总体回归系数的区分

简单回顾一下: 789094fe-882c-eb11-8da9-e4434bdf6706.svg  属于样本值,而  7a9094fe-882c-eb11-8da9-e4434bdf6706.svg  是总体值。总体值是未知的但它是确定的,正因为它是未知的,所以我们才要检验它是否等于0。 而  789094fe-882c-eb11-8da9-e4434bdf6706.svg  是根据样本计算出来的,它具体是多少,我们是知道的,不需要再检验。 比如前文中所举的教育程度和收入的例子,通过抽取1000名研究对象,我们计算出来一个回归方程(样本): 7e9094fe-882c-eb11-8da9-e4434bdf6706.svg 由上式可以知道:  859094fe-882c-eb11-8da9-e4434bdf6706.svg  ,即X的回归系数,所以它已经是确定等于200了,不可能再来检验它是否等于0。 好比我们做身高的单样本t检验时,零假设会写“总体均数  899094fe-882c-eb11-8da9-e4434bdf6706.svg  是否等于1.75”,而不是说检验“  8f9094fe-882c-eb11-8da9-e4434bdf6706.svg  ”,  909094fe-882c-eb11-8da9-e4434bdf6706.svg  是多少已经根据样本计算出来了。 这一点内容看似很简单,但其实经常有同学犯糊涂,所以,还是值得专门说一下。

2

回归系数的计算

搞清楚了  789094fe-882c-eb11-8da9-e4434bdf6706.svg  和  7a9094fe-882c-eb11-8da9-e4434bdf6706.svg  的区别,我们今天重点来看看  789094fe-882c-eb11-8da9-e4434bdf6706.svg  是怎么来的。因为我们获得的是样本数据,所以只能计算出  789094fe-882c-eb11-8da9-e4434bdf6706.svg  ,不能准确地算出  7a9094fe-882c-eb11-8da9-e4434bdf6706.svg  ,但是可以通过  789094fe-882c-eb11-8da9-e4434bdf6706.svg  来推断  7a9094fe-882c-eb11-8da9-e4434bdf6706.svg  的大小,当然主要是与“0”比。 借用我们讲相关分析时的例子:探讨粮食中某种毒素(DON)对骨关节炎评分(OAP)的影响,数据如下:
b1dd958ed65f6d5fce61627626389056.png
无论是做回归还是相关分析,我们拿到数据的第一步应该是先画一个散点图:以因变量Y为纵轴,以自变量X为横轴(如果有多个自变量,则让Y逐一与X画散点图)。 本例我们研究的是DON对OAP的影响,所以以OAP为Y,以DON为X,散点图如下:
c374c3fa202ac78893e2e3019414b9fa.png
如上图,两变量之间正向的线性关系还是很明显的,随着DON的提升,OAP也有上升的趋势,所以推测,粮食中DON毒素可能会导致患者关节炎的发生。 我们现在希望通过回归分析来定量地衡量DON对OAP的影响,就是希望求出回归方程中的  789094fe-882c-eb11-8da9-e4434bdf6706.svg  值,更准确而言,就是求X的回归系数。 回归方程在几何上是一条直线,所以问题归结于怎么样找到一条这样的直线。 因为我们希望回归直线尽可能最优,所以就需要做出的直线离各散点的综合距离最小。 如下图中的u1、u2,代表了散点与回归直线的距离。
1b2bb706b81c8f6409725891157626a4.png
如下图,我们根据肉眼观察,对关节炎的数据画出来两条线:蓝线和红线,问题是到底选择哪一条线呢?
bb24ffad16911f7792361fcbc031216d.png
肉眼观察肯定不靠谱,只能通过数学计算来比较判断,如何判断呢?本质上这是一个求最小值的问题。 上面说过了,我们希望得到的直线离所有散点的综合距离最小,怎么把这句话转变成数学计算呢? 所谓的“综合距离”最小,用数学的语言来表达就是让下面这个式子取最小值 be9094fe-882c-eb11-8da9-e4434bdf6706.svg 因为 c29094fe-882c-eb11-8da9-e4434bdf6706.svg 所以 c39094fe-882c-eb11-8da9-e4434bdf6706.svg   c59094fe-882c-eb11-8da9-e4434bdf6706.svg 综合起来可以写成:
a5cd44053645191dcf79de2a55873566.png
重点看上式的右边,我们要知道,  ca9094fe-882c-eb11-8da9-e4434bdf6706.svg  都是已知的(抽样获取的),只有  cc9094fe-882c-eb11-8da9-e4434bdf6706.svg  和  cd9094fe-882c-eb11-8da9-e4434bdf6706.svg 是未知的,所以可以通过求最小值时将它们计算出来。 别被复杂的式子唬住,其实这里只需要初中或高中的数学就能解决。耐心的小伙伴可以尝试展开一下,其实就是一个二次函数。 如果稍微有点高数的基础,可以把它构造成一个二元函数,然后分别对  cc9094fe-882c-eb11-8da9-e4434bdf6706.svg  和  cd9094fe-882c-eb11-8da9-e4434bdf6706.svg 求偏导数,还记得吗?导数为零的点是极值点。 求解出来的结果是:
8dba58b08b774ee17341177c6067cc5f.png

以上这个过程就是大家总能听到的“最小二乘法”。

回到我们关节炎的例子,最后得出其回归方程为:

3b1f4bede9e41a863542fe2604c2022a.png
d09fc1c8345c83aaaf2f1e7b128880e5.png

来源:“丁点帮你”公众号


【免责声明】《管理学刊》微信公众平台所转载的专题文章,仅作学术交流之用,未有任何商业目的;本平台对文中观点保持中立;文章版权属于原作者,如果分享内容有侵权或非授权发布之嫌,请联系我们,我们会及时审核处理。

7c8b6c28d397c209096ae6256ffc29bb.gif bbdfad373d8bc1f4bc5a9422bf6b0800.png

扫二维码|关注我们

微信号|glxk2009

电话|0373-3683517

8552365bcbb2c7b19c272c99ede2e766.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值