1、参数学习算法和非参数学习算法
参数学习算法:是一类有固定数目参数的以用来进行数据拟合的算法。
非参数学习算法:它是一个参数数量会随着训练集大小m增长的算法。
2、局部加权回归(Local Weight Regression):
局部加权回归主要是选择一个 θ 来拟合目标函数:
∑mi=1ωi(y(i)−θx(i))
其中 ωi=exp((x−x(i))22τ2)
if |x−x(i)|≈0,ωi≈1
if |x−x(i)|≈∞,ωi≈0
其中
τ
为波长因子。若
τ
很小,则
ωi
的值会下降的非常快;若
τ
很大,则
ωi
的值下降速度会很慢。
3、为什么选择最小二乘法做损失函数
假定 y(i)=θTx(i)+ϵ(i)
其中 ϵ(i) 为误差,它可能是由于我们在训练数据时漏掉了一部分数据的特征,或者是一些随机噪声造成的。其中假设 ϵ(i)−N(0,σ2) .
则 P(y(i)|x(i);θ)=1(√2π)σexp(−(y(i)−hθ(x(i)))22σ2)
则 y(i)|x(i)|θ−N(θTxi,σ2)
为什么假设误差服从高斯分布呢?
中心极限定律:许多独立变量之和趋于服从高斯分布。
如果误差是由许多效应共同导致的(如买家、卖家的情绪、我们没有考虑到的其他特征),如果这些效应是独立的,那么根据中心极限定理这些效应的和服从高斯分布。一方面,这个假设是合理准确的;另一方面,这有利于后续的数学计算。
在这里我们遵从频率学派的观点,认为
θ
是一个固有的值,它并不是一个随机变量,虽然我们不能确定
θ
的值到底是多少。
我们假设
ϵ(i)
是独立同分布的。
根据最大似然定理
L(θ)=P(y⃗ |X;θ)=∏mi=1P(y(i)|x(i);θ)=∏mi=112π√σexp(−(y(i)−θTx(i))22σ2)
l(θ)=logL(θ)=mlog1(√2π)σ+∑mi=1−(y(i)−θTx(i))22σ2
其中若使得 l(θ) 越大,则应使得上式中的第二项越小。即得到 J(θ)=min(y(i)−θTx(i))22 .
4、逻辑回归(Logistic Regression):
令 P(y=1|x;θ)=hθ(x)=11+exp(−θTx)
则 P(y=0|x;θ)=1−hθ(x)
则 P(y|x;θ)=hθ(x)y(1−hθ(x))(1−y)
则利用最大似然函数:
l(θ)=logL(θ)=∑mi=1y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))
利用梯度上升法,可求得 θ :
θ=θ+α▽θl(θ)
θj=θj+α∑mi=1(y(i)−hθ(x(i))xij
5、中心极限定理
5.1、独立同分布的中心极限定理
设随机变量 X1,X2,...,Xn 相互独立,服从同一分布,且其方差和期望分别为: E(Xk)=μ,D(Xk)=σ2(k=1,2,...,n) ,则随机变量之和 ∑nk=1Xk 的标准变量:
Yn=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)√=∑nk=1Xk−nμn√σ
的分布函数 Fn(x) 对任意 x 满足:
这就是说,均值为 μ ,方差为 σ2 的随机变量 X1,X2,...,Xn 之和的标准变量,当 n 足够大时,有
5.2、李雅普诺夫定理
设随机变量 X1,X2,...,Xn 相互独立,它们具有数学期望和方差:
E(Xk)=μk,D(Xk)=σ2k,k=1,2,...,n
记 B2n=∑nk=1σ2k ,若存在正数 δ ,使得当 n→∞ 时,
1B2+δ∑nk=1E{|Xi−μk|2+δ}→0
则随机变量 ∑nk=1Xk 的标准化变量:
Zk=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)√=∑nk=1Xk−∑nk=1μkBn
的分布函数 Fn(x) 对任意 x ,满足:
在很多问题中,所考虑的随机变量可以表示为多个独立的随机变量之和,例如,在某一时刻,一个城市的的耗电量是大量用户的耗电量总和;在物理实验中,实验的误差是由许多看到的和看不到的微小误差所合成,它们往往近似服从正态分布。
5.3 棣莫弗-拉普拉斯定理
设随机变量 ηn(n=1,2,...) 服从参数为 n,p(0<p<1) 的二项分布,则对任意 x ,有: