Probabilistic Interpretation
当遇到一个回归问题时,为什么会用线性回归,尤其是使用最小二乘法损失函数
J(θ)
是比较可靠的?
假设目标变量和输入的关联可以由下面的公式表示:
y(i)=θTx(i)+ϵ(i),
其中 ϵ(i) 是一个误差项,包含了一些没有归到模型中的特征变量和一些随机的误差。
我们进一步,按照正态分布,假设 ϵ(i) 是独立同分布,把这个假设写为公式表示:
ϵ(i)∼N(μ,σ2)
同样地:
p(ϵ(i))=12π−−√σexp(−(ϵ(i))22σ2)
这也可以推导出:
p(y(i)|x(i);θ)=12π−−√σexp(−(y(i)−θTx(i))22σ2)
其中, p(y(i)|x(i);θ) 表明这是一个已知 x(i) ,拥有 θ 的关于 y(i) 的分布,需要注意的是 θ 不是一个随机变量(这个变量是我们为了描述模型而规定的变量,不具有概率上的随机性)。
那么 y(i) 就是满足的高斯分布,如下式表示:
y(i)|x(i);θ∼N(θTx(i),σ2)
已知 X 和
L(θ)=L(θ;X,y⃗ )=p(y⃗ |X;θ)
可以看出, y⃗ (这里的 y⃗ 是 y(i) 的集合)的概率与似然函数 L(θ) 相等,那么考虑到 ϵ(i) 的独立性,似然函数可以写为:
L(θ)=∏i=1mp(y(i)|x(i);θ)=∏i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)
现在我们知道了这个关于 y(i) 和 xi 的概率模型,那么我们怎么样来选择一个让 θ 最优的可靠方法?通过最大似然估计法则可以知道我们需要求得一个 θ 值,让 L(θ) 最大。
我们可以对 L(θ) 求log(可以根据对数的性质,把积转换为和)来简化我们求最大值的过程:
l(θ)=logL(θ)=log∏i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)=∑i=1mlog12π−−√σexp(−(y(i)−θTx(i))22σ2)=mlog12π−−√σ−1σ2∗12∑i=1m(y(i)−θTx(i))2
将等式演化到这个程度时,可以看到要最大化 l(θ) ,我们需要将 12∑mi=1(y(i)−θTx(i))2 最小化。也就是我们前面部分提到的 J(θ) (最小二乘法损失函数)。