简单易懂的人工智能系列:一元线性回归
一元线性回归模型
在研究某一现象时,主要关心与影响该现象最主要因素关系时,两者有密切联系,但并非一个变量唯一确定另一变量,可以使用一元线性回归模型。一元线性理论回归模型:
由于随机误差的不可消除,我们认为,理论回归模型的期望就是一元线性回归方程:
回归方程从平均意义上表达了变量 y 与 x 的统计规律性。
回归分析的主要任务就是通过 n 组样本的观察值,对 进行估计,得到最终方程。
参数估计:OLE
我们这里所使用的是普通最小二乘估计(Ordinary Least Square Estimation, OLE):根据观察数据,寻找参数 \(\beta_0\) 、\(\beta_1\) 的估计值 \(\hat{\beta_0}\) 、\(\hat{\beta_1}\),使观测值和回归预测值的离差平方和达到极小。估计值 \(\hat{\beta_0}\) 、\(\hat{\beta_1}\)称作回归参数 \(\beta_0\) 、\(\beta_1\)的最小二乘估计。
通过上述过程就求出了 \(\hat{\beta_0}\) 、\(\hat{\beta_1}\),就可以得到一元线性回归方程。
我们来看个栗子:
参数估计:最大似然估计MLE
最大似然估计(Maximum Likehood Estimation,MLE):利用总体的分布密度或者概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法。
MLE 的基本思路:已知样本符合某种分布,但分布的具体参数位置,通过实验,估算分布的参数。估算的思想为:已知某组参数能使当前样本出现的概率最大,就认为这组参数为最终的估计量。
举个栗子:
假设各个样本是简单随机抽样(独立同分布),我们就是要找到某组参数已知的情况下,使当前样本出现的概率最大的这组参数。(也就是求使得 取最大值的参数\(\theta\))。
对于这个投硬币的栗子,在没有求解前我们可以这么认为 :
接下来看求解过程: