1、广义线性模型的介绍
当一个y可能由多个x决定时,且y与x中有多重线性关系时,我们定义线性回归公式为:
在拟合这样的一个拟合一个带有系数 w = (w_1, …, w_M) 的线性模型时,根据MSE,我们使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:
要求出最适合的模型,只需求出MSE(该表达式)的最小值即可
在此,我们引入最大似然估计和中心极限定理的的概念:
最大似然估计是一种统计学方法,它用来求一个样本集的相关概率密度函数的参数。
中心极限定理是谈论随机变量的序列和分布渐进于正态分布的一类定理。(个人理解,就是当一组变量随机抽取且变量之间无关系或关系很小时,他们的分布是近似于正态分布的。)
在此我们再引入正态分布的概率密度函数,所谓概率密度函数,就是变量与拟合成功概率的函数,其中x指变量,y指x拟合成功的概率。