引入
线性模型
一般地,线性模型为一个n元函数:
记:
则该模型的向量形式为:
线性回归
目标
使线性模型更加拟合数据集,即:
求得一个,使得
自变量处理
对于有“顺序”的属性,如身高的高低,质量的多少,有时可以转化为一个区间内的连续变量。
但大多数情况下(尤其是无序变量),需要转换为多元向量。
如:乘坐地铁、公交车、骑行(三选一),若对其分别只进行一元赋值,则自变量之间并非互相独立。显然,只有转化为多元向量才能解决。
(本例中,由于样本只能三选一,实际上设置二元向量即可满足独立性要求)
求取模型参数
最小二乘法估计参数
设
目标:使最小
对求和的偏导,得
解得
其中
线性回归的推广
原理:,连续可微。
eg:设,则
两边取对数,得
Logistic回归
Logistic模型适用于自变量与因变量间并非线性关系,且因变量为分类变量的情况。
对于这样一组,试图采用线性模型:
取,为了利用线性模型,需要找到,使。
但是,由于为分类变量,是离散的,这样直接找到的单位阶跃函数既不连续也不可微。
为了解决问题,采用Logistic函数(Sigmoid函数)拟合单位阶跃函数。
于是:
对数几率
样本作为正例的相对可能性的对数,,称作对数几率。
求取参数
(常用极大似然估计,即求
令取到最大值时,各的值。
其中,为未知参数,为样本点,为概率密度函数。)
给定数据集,最大化样本属于其真实标记的概率,即
最大化