参数拟合概念
拟合是指从训练数据学习目标函数,过拟合是指目标函数对训练数据的预测能力很强,但对测试数据预测能力很差,欠拟合是指目标函数对训练数据和测试数据的拟合程度都很差。
参数学习算法与非参数学习方法
参数学习方法是指目标函数在训练过程中参数是固定的,例如线性回归算法,而非参数学习方法是指目标函数在训练过程中参数是可变的,例如局部加权回归算法
局部加权回归算法
为了求出假设函数 h 在特定样本点
x 处得值
1. 线性回归算法: minθ∑i(yi−θTx)2 ,return θTx
2.局部加权回归算法: minθ∑iwi(yi−θTx)2
其中 wi 是权值,一般取 wi=exp(−(xi−x)22τ2) , τ 称为波长函数,用来控制权值下降速率。
wi={10xi接近xxi远离x
假设 yi=θTx+ξi ,其中 ξi 是误差项,一般取 ξi=12πσ√2exp(−(ξi)22σ2)
那么有 p(yi∣xi;θ)=12π√2σexp(−(yi−θTxi)22σ2) ,服从高斯分布 N(θTxi,σ2)极大似然法
极大似然法就是选择参数 θ 使得样本出现的概率最大
假设 ξi 独立同分布,定义似然函数 L(θ)=p(y∣xi;θ)=∏ip(yi∣xi;θ)
定义对数似然函数 ψ(θ) 如下:
ψ(θ)=logL(θ)=log∏ip(yi∣xi;θ)=∑i=1mlog12π−−√2σexp(−(yi−θTxi)22σ2)=mlog12π−−√2σ+∑i=1m−(yi−θTxi)22σ2
最大化似然函数等价于最小化损失函数 J(θ)=∑mi=1(yi−θTxi)22 ,最小二乘法实质上就是假设误差项服从独立同分布的高斯分布使得似然函数最大化极大似然法用于二分类问题
假设 y∈{0,1} ,那么 hθ(x)∈[0,1]
选取 hθ(x)=g(θTx)=g(z)=11+e−z , g(z) 称为逻辑函数(S型函数)
令 p(y=1∣x;θ)=hθ(x) ,则 p(y=∣x;θ)=1−hθ(x)
似然函数 L(θ)=p(y∣x;θ)=∏ip(yi∣xi;θ)=hθ(x)yi(1−hθ(x))1−yi
对数似然函数 ψ(θ)=logL(θ)=∑mi=1(yilog(hθ(x))+(1−yi)log(1−hθ(x)))
那么可以将损失函数定义为: J(θ)=−1mψ(θ) ,似然函数最大化就等价于损失函数最小化。
利用梯度上升法求最优解,即 θ=θ+α▽θψ(θ)
∂ψ(θ)∂θj=−1m∑mi=1(yilog(hθ(xi))+(1−yi)log(1−hθ(xi))
=−1m∑mi=1(yi1g(θTx)i−(1−yi)11−g(θTxi))∂g(θTxi)∂θj
=−1m∑mi=1(yi1g(θTxi)−(1−yi)11−g(θTxi))g(θTxi)(1−g(θTxi))∂θTxi∂θj (1)
=−1m∑mi=1(yi(1−g(θTxI))−(1−yi)g(θTxi))xij (2)
=−1m∑mi=1(yi−g(θTx))xij=1m∑mi=1(hθ(xi)−yi)xij
从(1)到(2)的过程用到以下公式:
f(x)=11+g(x)
∂f(x)∂x=1(1+eg(x))2eg(x)∂g(x)∂x
=11+eg(x)eg(x)1+eg(x)∂g(x)∂x
=f(x)(1−f(x))∂g(x)∂x
所以有: θj=θj+α1m∑mi=1(yi−hθ(xi))xij