局部加权回归(locally weighted regression)
参数化算法:有固定参数来拟合数据的算法
非参数算法:参数变化的算法,例如局部加权回归(LWR)
LWR:选择参数
使拟合最小化
,
其中
,
即在距离目标点较近的点将获得较大的权值(
时趋近于1),距离较远的点将获得较小的权值(
时趋近于0),因此每次进行预测(x不同),都需要重新计算所有权值,
称为波长参数(bandwidth p
arameter),直观上看其控制了权值随距离增大而下降的速率,其值越小,所得的权值函数(钟型图像)越陡,反之则越平坦。
线性回归模型的概率解释
假设真实房价值与预测值之间相差一个误差项,即
,误差项
是由多个相互独立的随机变量(包括没有捕获的特征值和随机噪声等)之和,由中心极限定理,可知误差项服从均值为0的正态分布即
,其概率密度函数
因此在给定参数的房价也是服从正态分布的,即
,
而
令
所以问题变为选择参数
使
最大化,
令
所以问题等同与选择参数
使
最小化(注意
是正数),
这就是线性模型中选择代价函数
的原因。
logistics 回归(logistics regression)
logistics 回归算法是一种二元分类算法(输出值是个离散的,如只能取两个值0/1),
假设
,
其假设函数为
,
其中
一般被称为logistics 函数或sigmoid 函数,
图像特点:当z小于零趋向于负半轴则g(z)趋向于0,当z大于零趋向于正半轴则g(z)趋向于1,与y轴相交于(0,0.5)
所以
合并得
所以
而
接下来用梯度下降法求
使
最大化,即
(注意是加不是减,因为是最大化)
而梯度和线性回归的几乎一样
所以对所有有