1.独立同分布的意义
在机器学习中很重要的一点:误差是独立同分布的,并且服从均值为0,方差为
⊖
2
\ominus^2
⊖2 的高斯分布。
解释一下:
什么是独立?
就是数据样本之间互相独立(互相不影响),例如:张三来银行贷款,他贷款多少并不影响李四的贷款金额和情况。两个数据是相互独立的。
什么是同分布?
样本数据得满足相同的分布。不能是这个数据满足正太分布,这个数据满足泊松分布。例如:咋们研究的是,根据年龄和月薪,预测能贷款的数额。那咋们就得保证这些数据(年龄、月薪、贷款数额)是来自同一家银行。
什么是高斯分布?
高斯分布也叫正太分布,如上图所示。数值大概率是集中在均值附近,两侧数值的概率很小。
下面是百度百科的解释!!!
若随机变量X服从一个数学期望为μ、方差为
σ
2
σ^2
σ2的正态分布,记为N(μ,
σ
2
σ^2
σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
在我们生活中产生和收集到的数据,不可能完全满足误差是独立同分布的,并且服从均值为0,方差为 ⊖ 2 \ominus^2 ⊖2 的高斯分布。
2. ⊖ \ominus ⊖参数的推导和最小二乘法的由来
现在的情况是:我们有X和Y。我们想求
⊖
\ominus
⊖这个参数。因为求出一个合适的
⊖
\ominus
⊖参数。输入X可以通过
⊖
\ominus
⊖参数,求出最接近于Y的预测值。这样我们的预测方法就是精准的!!!
上文提到,我们假设误差是满足高斯分布的,所以有了式子(2)
现在,我们想求
⊖
\ominus
⊖参数,但是有两个未知数,一个是
⊖
\ominus
⊖、一个是误差ε。所以我们现在转化式子(1),将误差ε用X、Y和
⊖
\ominus
⊖表示。
将式(1)带入式(2)得出一个,只包含一个未知数
⊖
\ominus
⊖的式子!!!!
下面补充一点小知识点:联合概率、边缘概率、条件概率、似然函数
(1)联合概率指的是包含多个条件且所有条件同时成立的概率,记作P(X=a,Y=b)或P(a,b),有的书上也习惯记作P(ab)。
(2)边缘概率是与联合概率对应的,P(X=a)或P(Y=b),这类仅与单个随机变量有关的概率称为边缘概率。
(3)条件概率表示在条件Y=b成立的情况下,X=a的概率,记作P(X=a|Y=b)或P(a|b)。
(4)在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。
给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:
如果两随机变量相互独立,则联合密度函数等于边缘密度函数的乘积,即f (x,y)=f (x)f (y)。 如果两随机变量是不独立的,那是无法求的。
因为我们的数据是独立同分布的!所以联合概率密度函数=边缘概率密度函数的乘积。
目标:我们想要似然函数的值越大越好
式子两边同时取log,不会改变求解的
⊖
\ominus
⊖,但是可以将问题简化(从乘法变成加法),转化为以下式子