斯坦福机器学习公开课(3)

1、参数学习算法和非参数学习算法

参数学习算法:是一类有固定数目参数的以用来进行数据拟合的算法。

非参数学习算法:它是一个参数数量会随着训练集大小m增长的算法。

2、局部加权回归(Local Weight Regression):

局部加权回归主要是选择一个 θ 来拟合目标函数:

mi=1ωi(y(i)θx(i))

其中 ωi=exp((xx(i))22τ2)

if |xx(i)|0ωi1

if |xx(i)|ωi0

其中 τ 为波长因子。若 τ 很小,则 ωi
的值会下降的非常快;若 τ 很大,则 ωi
的值下降速度会很慢。

3、为什么选择最小二乘法做损失函数

假定 y(i)=θTx(i)+ϵ(i)

其中 ϵ(i) 为误差,它可能是由于我们在训练数据时漏掉了一部分数据的特征,或者是一些随机噪声造成的。其中假设 ϵ(i)N(0,σ2) .

P(y(i)|x(i);θ)=1(2π)σexp((y(i)hθ(x(i)))22σ2)

y(i)|x(i)|θN(θTxi,σ2)

为什么假设误差服从高斯分布呢?

中心极限定律:许多独立变量之和趋于服从高斯分布。
如果误差是由许多效应共同导致的(如买家、卖家的情绪、我们没有考虑到的其他特征),如果这些效应是独立的,那么根据中心极限定理这些效应的和服从高斯分布。一方面,这个假设是合理准确的;另一方面,这有利于后续的数学计算。

在这里我们遵从频率学派的观点,认为 θ 是一个固有的值,它并不是一个随机变量,虽然我们不能确定 θ 的值到底是多少。
我们假设 ϵ(i) 是独立同分布的。
根据最大似然定理

L(θ)=P(y⃗ |X;θ)=mi=1P(y(i)|x(i);θ)=mi=112πσexp((y(i)θTx(i))22σ2)

l(θ)=logL(θ)=mlog1(2π)σ+mi=1(y(i)θTx(i))22σ2

其中若使得 l(θ) 越大,则应使得上式中的第二项越小。即得到 J(θ)=min(y(i)θTx(i))22 .

4、逻辑回归(Logistic Regression):

P(y=1|x;θ)=hθ(x)=11+exp(θTx)

P(y=0|x;θ)=1hθ(x)

P(y|x;θ)=hθ(x)y(1hθ(x))(1y)

则利用最大似然函数:

l(θ)=logL(θ)=mi=1y(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))

利用梯度上升法,可求得 θ

θ=θ+αθl(θ)
θj=θj+αmi=1(y(i)hθ(x(i))xij

5、中心极限定理

5.1、独立同分布的中心极限定理

设随机变量 X1,X2,...,Xn 相互独立,服从同一分布,且其方差和期望分别为: E(Xk)=μ,D(Xk)=σ2(k=1,2,...,n) ,则随机变量之和 nk=1Xk 的标准变量:

Yn=nk=1XkE(nk=1Xk)D(nk=1Xk)=nk=1Xknμnσ

的分布函数 Fn(x) 对任意 x 满足:

limnFn(x)=limnP{Ynx}=x12πexp(t22)dt

这就是说,均值为 μ ,方差为 σ2 的随机变量 X1,X2,...,Xn 之和的标准变量,当 n 足够大时,有

nk=1XknμnσN(0,1)

5.2、李雅普诺夫定理

设随机变量 X1,X2,...,Xn 相互独立,它们具有数学期望和方差:

E(Xk)=μk,D(Xk)=σ2k,k=1,2,...,n

B2n=nk=1σ2k ,若存在正数 δ ,使得当 n 时,

1B2+δnk=1E{|Xiμk|2+δ}0

则随机变量 nk=1Xk 的标准化变量:

Zk=nk=1XkE(nk=1Xk)D(nk=1Xk)=nk=1Xknk=1μkBn

的分布函数 Fn(x) 对任意 x ,满足:

limnFn(x)=limnP(Zk<x)=x12πexp(t22)dt

在很多问题中,所考虑的随机变量可以表示为多个独立的随机变量之和,例如,在某一时刻,一个城市的的耗电量是大量用户的耗电量总和;在物理实验中,实验的误差是由许多看到的和看不到的微小误差所合成,它们往往近似服从正态分布。

5.3 棣莫弗-拉普拉斯定理

设随机变量 ηn(n=1,2,...) 服从参数为 n,p(0<p<1) 的二项分布,则对任意 x ,有:

limnP(ηnnpnp(1p)x)=x12πexp(t22)dt.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值