决定系数
TSS(样本平方和)
RSS(残差平方和)
又称为误差平方和
衡量模型拟合效果R^2
在RSS(误差平方和)>TSS(样本平方和)时,R^2<0
回归平方和
在无偏估计的情况下,才有TSS=ESS+RSS
其余情况 TSS>=RSS+ESS
局部加权回归
一般的线性回归
局部加权回归
增加了w,对某些部分的进行加权,使其复杂度增加
w权值的设置
1、高斯核函数
τ称为带宽,控制着训练样本x(i)随着与x(待查点,就是要估计的点的坐标)距离增大而增大的衰减速率(这块还是有点迷惑)
LogisticRegression
logistics函数(sigmoid函数)
该函数的性质
g’(x) = g(x)*(1-g(x))
该函数可以将输入样本压缩到0-1的区域内,设定一个阈值(这里假设阈值为0.5),若输出大于0.5,则判断该输入样本属于1类别,否则则属于0类别,logistics回归大致是这样完成分类任务的。
系数的确定(极大似然估计确定θ(梯度下降法))
似然函数
密度函数的确定如上,由于y只取0,1,所以上面这个函数可以很好的包含0,1两种情况
似然函数就是m个密度函数相乘,如下
根据sigmoid函数的性质,对似然函数取对数求导,求出函数的梯度公式
(注意,这里是要求的最大值,可以理解为梯度上升公式)
最终θ变化的公式
广义线性模型
对logisticsregression的概率函数取对数几率可以得到一个线性的函数,这样去界定它是一个广义的线性模型
logisticsregression的损失函数
以对数似然函数为损失函数
由于logisticsregression极大似然估计取得是最大值,损失函数需要加一个负号