LOGISTIC回归

引入

线性模型

一般地,线性模型为一个n元函数:

f ( x )= w_1x_1+w_2x_2+...+w_ix_i+...+w_nx_n + b(i=1,2,...,n)

记:

\boldsymbol{w}=\left ( w_1,w_2,...,w_n \right )

\boldsymbol{x}=\left ( x_1,x_2,...,x_n \right )

则该模型的向量形式为:

f(x)=\boldsymbol{w}^\tau \boldsymbol{x}+b

线性回归

目标

使线性模型更加拟合数据集,即:

求得一个f(x),使得

\forall D=\left \{ (x_1,y_1),...,(x_m,y_m)\right \},f(x_i)\simeq y_i(i=1,...,m)

自变量处理

对于有“顺序”的属性,如身高的高低,质量的多少,有时可以转化为一个区间内的连续变量。

但大多数情况下(尤其是无序变量),需要转换为多元向量。

如:乘坐地铁、公交车、骑行(三选一),若对其分别只进行一元赋值,则自变量之间并非互相独立。显然,只有转化为多元向量才能解决。

(本例中,由于样本只能三选一,实际上设置二元向量即可满足独立性要求)

求取模型参数

最小二乘法估计参数

e_i=f(x_i)-y_i

目标:使\sum e_i^2最小

E_{(w,b)}=\sum (y_i-wx_i-b)^2wb的偏导,得

E'_w=2(w \sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i)=0

E'_b=2(mb-\sum_{i=1}^{m}(y_i-wx_i))=0

解得

\hat{w}=\frac{\sum_{i=1}^{m}y_i(x_i-\overline{x})}{\sum_{i=1}^{m}x_i^2-\frac{1}{m}(\sum_{i=1}^{m}x_i)^2}

\hat{b}=\frac{1}{m}\sum_{i=1}^{m}(y_i-\hat{w}x_i)

其中\overline{x}=\frac{1}{m}\sum_{i=1}^{m}x_i

线性回归的推广

原理:y=g(f(x))=g(wx+b)g(x)连续可微。

eg:设g(x)=e^x,则y=g(f(x))=e^{wx+b}

两边取对数,得lny=wx+b

Logistic回归

Logistic模型适用于自变量与因变量间并非线性关系,且因变量为分类变量的情况。

对于这样一组x,y,试图采用线性模型:

f(x_i)=wx_i+b,为了利用线性模型,需要找到g,使y=g(f(x))=wx+b

但是,由于y为分类变量,是离散的,这样直接找到的单位阶跃函数g(x)既不连续也不可微。

为了解决问题,采用Logistic函数(Sigmoid函数)Logistic(x)=\frac{1}{1+e^{-x}}拟合单位阶跃函数。

于是:

y=Logistic(f(x))=\frac{1}{1+e^{-(\boldsymbol{w^\tau x}+b)}}

对数几率

样本作为正例的相对可能性的对数,ln\frac{y}{1-y},称作对数几率。

\because ln\frac{y}{1-y}=\frac{P(y=1|\boldsymbol{x})}{P(y=0|\boldsymbol{x})}=\boldsymbol{w^\tau x}+b

\therefore P(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w^\tau x}+b}}{1+e^{\boldsymbol{w^\tau x}+b}}        P(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w^\tau x}+b}}

求取参数

(常用极大似然估计,即求

L(\theta_1,...,\theta_m)=\prod_{i=1}^{m}f(x_i;\theta_1,...,\theta_m)取到最大值时,各\theta的值。

其中,\theta_1,...,\theta_m为未知参数,x为样本点,f为概率密度函数。)

给定数据集\left \{ (\boldsymbol{x}_i,y_i) \right \}^m_{i=1},最大化样本属于其真实标记的概率,即

最大化\sum_{i=1}^{m}lnP(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值