线性模型

基本形式

给定由 d 个属性描述的示例 x = ( x 1 ; x 2 ; . . . ; x d ) x = (x_1;x_2;...;x_d) x=(x1;x2;...;xd),其中 x i x_i xi 是 x 在第 i 个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b f(x)=w1x1+w2x2+...+wdxd+b
一般用向量形式写成
f ( x ) = w T x + b f(x) = w^Tx + b f(x)=wTx+b

线性回归

给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D = \{(x_1, y_1), (x_2, y_2),...,(x_m, y_m)\} D={(x1,y1),(x2,y2),...,(xm,ym)}, 其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y i ∈ R . x_i = (x_{i1}; x_{i2};...;x_{id}), y_i \in R. xi=(xi1;xi2;...;xid),yiR.线性回归试图学得
f ( x i ) = w x i + b , 使 得 f ( x i ) ≃ y i . f(x_i) = wx_i + b,使得f(x_i)\simeq y_i. f(xi)=wxi+b使f(xi)yi.

通过让均方误差最小化来确定 w w w b b b,基于均方误差最小化来进行模型求解的方法称为最小二乘法
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split} (…

我们可将 E ( w , b ) E_{(w, b)} E(w,b)分别对 w w w b b b 求导,得到

∂ E ( w , b ) ∂ x = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \frac{\partial E_{(w, b)}}{\partial x} = 2(w\sum_{i = 1}^mx_i^2 - \sum_{i = 1}^m(y_i - b)x_i) xE(w,b)=2(wi=1mxi2i=1m(yib)xi)

∂ E ( w , b ) ∂ x = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial E_{(w, b)}}{\partial x} = 2(mb - \sum_{i = 1}^m(y_i - wx_i)) xE(w,b)=2(mbi=1m(yiwxi))

分别令上式为零可得 w w w b b b 的最优闭式解
w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w = \frac{\sum_{i = 1}^my_i(x_i - \bar x)}{\sum_{i = 1}^mx_i^2 - \frac{1}{m}(\sum_{i = 1}^mx_i)^2} w=i=1mxi2m1(i=1mxi)2i=1myi(xixˉ)

b = 1 m ∑ i = 1 m ( y i − w x i ) b = \frac{1}{m}\sum_{i = 1}^m(y_i - wx_i) b=m1i=1m(yiwxi)

更一般地,我们试图学得

f ( x i ) = w T x i + b , 使 得 f ( x i ) ≃ y i . f(x_i) = w^Tx_i + b,使得f(x_i)\simeq y_i. f(xi)=wTxi+b使f(xi)yi.

w w w b b b 吸收入向量形式 w ^ = ( w ; b ) \hat{w} = (w; b) w^=(w;b),相应的,把数据集 D D D 表示为一个 m × ( d + 1 ) m \times (d + 1) m×(d+1)大小的矩阵 X X X,其中每行对应一个示例,即
X = [ x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ] = [ x 1 T 1 x 2 T 1 ⋮ ⋮ x m T 1 ] X = \begin{bmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1d}}&{1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2d}}&{1}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{m1}}&{x_{m2}}&{\cdots}&{x_{md}}&{1}\\ \end{bmatrix} = \begin{bmatrix} {x_{1}^T}&{1}\\ {x_{2}^T}&{1}\\ {\vdots}&{\vdots}\\ {x_{m}^T}&{1}\\ \end{bmatrix} X=x11x21xm1x12x22xm2x1dx2dxmd111=x1Tx2TxmT111

再把标记写成向量形式 y = ( y 1 ; y 2 ; . . . ; y m ) y = (y_{1}; y_{2}; ...; y_{m}) y=(y1;y2;...;ym),有
w ^ ∗ = a r g   m i n ( w , b ) ( y − X w ^ ) T ( y − X w ^ ) \hat{w}^* = \underset{(w, b)}{arg\,min}(y - X\hat{w})^T(y - X\hat{w}) w^=(w,b)argmin(yXw^)T(yXw^)
E w ^ = ( y − X w ^ ) T ( y − X w ^ ) E_{\hat{w}} = (y - X\hat{w})^T(y - X\hat{w}) Ew^=(yXw^)T(yXw^),对 w ^ \hat{w} w^求导得到
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split} E…

KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split} \…

令上式为零可得 w ^ \hat{w} w^ 最优的闭式解,则 X T X w ^ = X T y X^TX\hat{w} = X^Ty XTXw^=XTy

X T X X^TX XTX 为满秩矩阵或正定矩阵时,可得
w ^ ∗ = ( X T X ) − 1 X T y \hat{w}^* = (X^TX)^{-1}X^Ty w^=(XTX)1XTy

X T X X^TX XTX 不可逆时,可引入正则化项

对数几率回归(逻辑回归)

上一节讨论的是如何使用线性模型进行回归学习,这一节将讨论使用线性模型进行分类任务。首先简单介绍一下对数几率函数
y = 1 1 + e − z y = \frac{1}{1 + e^{-z}} y=1+ez1

在这里插入图片描述

对数几率函数是一种“Sigmoid函数”,它将 z 值转化成一个接近 0 或 1 的 y 值,并且其输出值在 z = 0 附近变化很陡。将对数几率函数代入得到
y = 1 1 + e − ( w T x + b ) y = \frac{1}{1 + e^{-(w^Tx + b)}} y=1+e(wTx+b)1


l n y 1 − y = w T x + b ln\frac{y}{1 - y} = w^Tx + b ln1yy=wTx+b
若将 y 视为样本 x 作为正例的可能性,则1 - y 是其反例的可能性,两者的比值 y 1 − y \frac{y}{1 - y} 1yy称为“几率”,対几率取对数 l n y 1 − y ln\frac{y}{1 - y} ln1yy得到“对数几率”

若将 y 视为类后验概率估计 p ( y = 1 ∣ x ) p(y = 1|x) p(y=1x),则上式可重写为
l n p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = w T x + b ln\frac{p(y = 1|x)}{p(y = 0|x)} = w^Tx + b lnp(y=0x)p(y=1x)=wTx+b

p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p(y = 1|x) = \frac{e^{w^Tx + b}}{1 + e^{w^Tx + b}} p(y=1x)=1+ewTx+bewTx+b

p ( y = 0 ∣ x ) = 1 1 + e w T x + b p(y = 0|x) = \frac{1}{1 + e^{w^Tx + b}} p(y=0x)=1+ewTx+b1

逻辑回归模型学习时,对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T = \{(x_1, y_1), (x_2, y_2), ... ,(x_N, y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)},其中, x i ∈ R n , y i ∈ { 0 , 1 } x_{i} \in R^n, y_i \in \{0, 1\} xiRn,yi{0,1},可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

设:
p ( y = 1 ∣ x ) = π ( x ) p(y = 1|x) = \pi(x) p(y=1x)=π(x)

p ( y = 0 ∣ x ) = 1 − π ( x ) p(y = 0|x) = 1 - \pi(x) p(y=0x)=1π(x)

似然函数为
∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1 - \pi(x_i)]^{1 - y_i} i=1N[π(xi)]yi[1π(xi)]1yi

β = ( w ; b ) , x ^ = ( x ; 1 ) \beta = (w; b), \hat{x} = (x; 1) β=(w;b),x^=(x;1), 则 w T x + b w^Tx + b wTx+b 可简写成 β T x ^ \beta^T\hat{x} βTx^ , 对数似然函数为
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split} l…

对上式求极大值,可得到 w w w 的估计值。常采用的方法是梯度下降法及拟牛顿法

类别不平衡问题

类别不平衡是指分类任务中不同类别的训练样例数目差别很大的情况。不失一般性,我们假定正类样例较少,反类样例较多。

解决方法:

  • 欠采样。即去除一些反例使得正反例数目接近,然后再进行学习

  • 过采样。即增加一些正例使得正反例数目接近,再进行学习。

  • 阈值移动。直接基于原始数据集进行学习,但在用训练好的分类器进行预测时,将 y ′ 1 − y ′ = y 1 − y × m − m + \frac{y^{'}}{1 - y^{'}} = \frac{y}{1 - y} \times \frac{m^{-}}{m^{+}} 1yy=1yy×m+m 嵌入决策过程中

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值