【学习笔记】斯坦福大学公开课(机器学习) 之概率解释

Probabilistic Interpretation

当遇到一个回归问题时,为什么会用线性回归,尤其是使用最小二乘法损失函数 J(θ) 是比较可靠的?
假设目标变量和输入的关联可以由下面的公式表示:

y(i)=θTx(i)+ϵ(i),

其中 ϵ(i) 是一个误差项,包含了一些没有归到模型中的特征变量和一些随机的误差。
我们进一步,按照正态分布,假设 ϵ(i) 是独立同分布,把这个假设写为公式表示:
ϵ(i)N(μ,σ2)

同样地:
p(ϵ(i))=12πσexp((ϵ(i))22σ2)

这也可以推导出:
p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)

其中, p(y(i)|x(i);θ) 表明这是一个已知 x(i) ,拥有 θ 的关于 y(i) 的分布,需要注意的是 θ 不是一个随机变量(这个变量是我们为了描述模型而规定的变量,不具有概率上的随机性)。
那么 y(i) 就是满足的高斯分布,如下式表示:
y(i)|x(i);θN(θTx(i),σ2)

已知 X θ,那么 y⃗  的分布又是怎么样的呢?这个概率值我们用式子 p(y⃗ |X;θ) 来表示。我们把这个式子作为 θ 的函数时,我们就可以称之为似然函数,用数学来表示这样的概念如下:
L(θ)=L(θ;X,y⃗ )=p(y⃗ |X;θ)

可以看出, y⃗  (这里的 y⃗  y(i) 的集合)的概率与似然函数 L(θ) 相等,那么考虑到 ϵ(i) 的独立性,似然函数可以写为:
L(θ)=i=1mp(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

现在我们知道了这个关于 y(i) xi 的概率模型,那么我们怎么样来选择一个让 θ 最优的可靠方法?通过最大似然估计法则可以知道我们需要求得一个 θ 值,让 L(θ) 最大。
我们可以对 L(θ) 求log(可以根据对数的性质,把积转换为和)来简化我们求最大值的过程:
l(θ)=logL(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσ1σ212i=1m(y(i)θTx(i))2

将等式演化到这个程度时,可以看到要最大化 l(θ) ,我们需要将 12mi=1(y(i)θTx(i))2 最小化。也就是我们前面部分提到的 J(θ) (最小二乘法损失函数)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值