参数学习:有固定数目的参数,模型学习之后会有一个永久的参数,这个参数在后面的预测中可以直接使用,不需要再需要数据
非参数学习:参数数目会随着训练数据规模线性增长。
局部加权线性回归,使用局部的数据进行回归
假设要在第i个样本附近回归, x(i)
找到θ,使得
12∑mi=1w(i)(y(i)−θTx(i))2
其中
w(i)=e−(x(i)−x)22
这意味着,当x接近于
x(i)
时,
w(i)
接近于1,反之,当x远离于
x(i)
时,
w(i)
接近于0
- 线性回归的概率解释
样本:( x(i),y(i) ),第i个样本,总共m个样本
hθ(x(i)) 表示第i个样本的预测值
则 y(i)=θTx(i)+ε(i)
假设 ε(i) N(0,σ2) ,且符合独立同分布 iid.
P(ε(i))=12π√σe−ε(i)22σ2
所以,
P(y(i)|x(i);θ)=12π√σe−y(i)−θTx(i)22σ2 N(θTx(i),σ2)
;表示频率学派观点,θ不是随机变量,读作:以θ为参数的概率…
,表示贝叶斯学派观点,θ是随机变量
似然函数
L(θ)=P(
Y|X;θ
)=Πmi=1P(y(i)|x(i);θ)
l(θ)=logL(θ)
最大似然:选取θ使得
L(θ)
最大,即
l(θ)
最大
l(θ)=mlog12π√σ+∑mi=1−y(i)−θTx(i)22σ2
y(i)−θTx(i)22σ2=J(θ)
logistic 回归:
分类算法
假设
y∈{0,1}
,我们选取回归的函数
hθ(x)∈[0,1]
选择
hθ(x)=g(θTx)=11+e−θTx
g(z)=11+e−z
叫做sigmoid函数或者 logistics函数
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1−hθ(x)
所以
P(y|x;θ)=hθ(x)y(1−hθ(x))1−y
似然函数
L(θ)=P(
y|x
;θ)=ΠP(y(i)|x(i);θ)=Πhθ(x(i))y(i)(1−hθ(x(i)))1−y(i)
l(θ)=logL(θ)
梯度上升法:
θ=θ+α∂∂θl(θ)