【机器学习基础】线性基函数模型

本系列为《模式识别与机器学习》的读书笔记。

一,线性基函数模型

1,线性基函数

回归问题的⽬标是在给定 D D D 维输⼊(input) 变量 x \boldsymbol{x} x 的情况下, 预测⼀个或者多个连续⽬标(target)变量 t t t 的值。

通过将⼀组输⼊变量的⾮线性函数进⾏线性组合, 我们可以获得⼀类更加有⽤的函数, 被称为基函数basis function)。

回归问题的最简单模型是输⼊变量的线性组合
y ( x , w ) = w 0 + w 1 x 1 + ⋯ + w D x D (3.1) y(\boldsymbol{x},\boldsymbol{w}) = w_0+w_1x_1+\dots+w_Dx_D\tag{3.1} y(x,w)=w0+w1x1++wDxD(3.1)
其中, x = ( x 1 , x 2 , … , x D ) T \boldsymbol{x}=(x_1,x_2,\dots,x_D)^T x=(x1,x2,,xD)T ,通常称为线性回归linear regression),这个模型的关键性质在于它是参数 w 0 , … , w D w_0 ,\dots ,w_D w0,,wD 的⼀个线性函数。 但是, 它也是输⼊变量 x i x_i xi 的⼀个线性函数, 这给模型带来了极⼤的局限性。因此扩展模型的类别:将输⼊变量的固定的⾮线性函数进⾏线性组合:
y ( x , w ) = w 0 + ∑ j = 1 M − 1 w j ϕ j ( x ) (3.2) y(\boldsymbol{x},\boldsymbol{w}) = w_0+\sum_{j=1}^{M-1}w_{j}\phi_{j}(\boldsymbol{x})\tag{3.2} y(x,w)=w0+j=1M1wjϕj(x)(3.2)
其中, ϕ j ( x ) \phi_{j}(\boldsymbol{x}) ϕj(x) 被称为基函数basis function),参 数 w 0 w_0 w0 使得数据中可以存在任意固定的偏 置,这个值通常被称为偏置参数bias parameter)。此模型称为线性模型

通常,定义⼀个额外的虚“基函数” ϕ 0 ( x ) = 1 \phi_{0}(\boldsymbol{x}) = 1 ϕ0(x)=1 是很⽅便的,这时,
y ( x , w ) = ∑ j = 0 M − 1 w j ϕ j ( x ) = w T ϕ ( x ) (3.3) y(\boldsymbol{x},\boldsymbol{w}) = \sum_{j=0}^{M-1}w_{j}\phi_{j}(\boldsymbol{x}) = \boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})\tag{3.3} y(x,w)=j=0M1wjϕj(x)=wTϕ(x)(3.3)
其中, w = ( w 0 , x 1 , … , w M − 1 ) T \boldsymbol{w}=(w_0,x_1,\dots,w_{M-1})^T w=(w0,x1,,wM1)T ϕ = ( ϕ 0 , ϕ 2 , … , ϕ M − 1 ) T \boldsymbol{\phi}=(\phi_0,\phi_2,\dots,\phi_{M-1})^T ϕ=(ϕ0,ϕ2,,ϕM1)T

在许多模式识别的实际应⽤中, 我们会对 原始的数据变量进⾏某种固定形式的预处理或者特征抽取。如果原始变量由向量 x \boldsymbol{x} x 组成,那么特征可以⽤基函数 { ϕ j ( x ) } \{\phi_{j}(\boldsymbol{x})\} { ϕj(x)} 来表⽰。

多项式基函数的⼀个局限性在于它们是输⼊变量的全局函数,因此对于输⼊空间⼀个区域的改变将会影响所有其他的区域。这个问题的解决方案:把输⼊空间切分成若⼲个区域,然后对于每个区域⽤不同的多项式函数拟合,这样的函数叫做样条函数spline function)(Hastie et al., 2001)。

⾼斯基函数
ϕ j ( x ) = exp ⁡ { − ( x − μ j ) 2 2 s 2 } (3.4) \phi_{j}(x)=\exp\left\{-\frac{(x-\mu_{j})^2}{2s^{2}}\right\}\tag{3.4} ϕj(x)=exp{ 2s2(xμj)2}(3.4)
其中, μ j \mu_{j} μj 控制了基函数在输⼊空间中的位置,参数 s s s 控制了基函数的空间⼤⼩。

sigmoid基函数
ϕ j ( x ) = σ ( x − μ j s ) (3.5) \phi_{j}(x)=\sigma\left(\frac{x-\mu_{j}}{s}\right)\tag{3.5} ϕj(x)=σ(sxμj)(3.5)
其中 σ ( a ) \sigma(a) σ(a)logistic sigmoid函数,定义为:
σ a = 1 1 + exp ⁡ ( − a ) (3.6) \sigma_{a}=\frac{1}{1+\exp(-a)}\tag{3.6} σa=1+exp(a)1(3.6)
除此之外,基函数还可以选择傅⾥叶基函数tanh函数等等。其中,tanh函数logistic sigmoid函数 的关系如下: tanh ⁡ ( a ) = 2 σ ( 2 a ) − 1 \tanh(a)=2\sigma(2a)-1 tanh(a)=2σ(2a)1

如图3.1~3.3,分别为是多项式基函数,⾼斯基函数,sigmoid基函数。
多项式基函数
⾼斯基函数
sigmoid基函数

2,最⼤似然与最⼩平⽅

假设⽬标变量 t t t 由确定的函数 y ( x , w ) y(\boldsymbol{x},\boldsymbol{w}) y(x,w) 给出,这个函数被附加了⾼斯噪声,即

t = y ( x , w ) + ϵ t=y(\boldsymbol{x},\boldsymbol{w})+\epsilon t=y(x,w)+ϵ
其中, ϵ \epsilon ϵ 是⼀个零均值的⾼斯随机变量,精度(⽅差的倒数)为 β \beta β,则有:
p ( t ∣ x , w , β ) = N ( t ∣ y ( x , w ) , β − 1 ) (3.7) p(t|\boldsymbol{x},\boldsymbol{w},\beta)=\mathcal{N}(t|y(\boldsymbol{x},\boldsymbol{w}),\beta^{-1})\tag{3.7} p(tx,w,β)=N(ty(x,w),β1)(3.7)
均值为:
E [ t ∣ x ] = ∫ t p ( t ∣ x ) d t = y ( x , w ) \mathbb{E}[t|\boldsymbol{x}]=\int tp(t|\boldsymbol{x})\mathrm{d}t=y(\boldsymbol{x},\boldsymbol{w}) E[tx]=tp(tx)dt=y(x,w)
考虑⼀个输⼊数据集 X = { x 1 , … , x N } \mathbf{X}=\{\boldsymbol{x}_1,\dots, \boldsymbol{x}_N\} X={ x1,,xN}, 对应的⽬标值为 t 1 , … , t N t_1,\dots , t_N t1,,tN 。 我们把⽬标向量 { t n } \{t_n\} { tn} 组成⼀个列向量, 记作 t \mathbf{t} t。 假设这些数据点是独⽴地从分布公式(3.7)中抽取的,那么可以得到下⾯的似然函数的表达式, 它是可调节参数 w \boldsymbol{w} w β \beta β 的函数,形式为:
p ( t ∣ X , w , β ) = ∏ n = 1 N N ( t n ∣ w T ϕ ( x n ) , β − 1 ) (3.8) p(\mathbf{t}|\mathbf{X},\boldsymbol{w},\beta)=\prod_{n=1}^{N}\mathcal{N}(t_{n}|\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_{n}),\beta^{-1})\tag{3.8} p(tX,w,β)=n=1NN(tnwTϕ(xn),β1)(3.8)
取似然函数的对数,使⽤⼀元⾼斯分布的标准形式,可得:
ln ⁡ p ( t ∣ w , β ) = ∑ n = 1 N ln ⁡ N ( t n ∣ w T ϕ ( x n ) , β − 1

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习中,线性回归有多种模型可以使用。其中包括传统的线性回归模型和Lasso模型。 传统的线性回归模型是一种非常经典的方法,它通过拟合一个线性函数来预测因变量和自变量之间的关系。这个模型的数学原理可以通过最小二乘法来推导和求解。最小二乘法的目标是最小化预测值与实际观测值之间的残差平方和,从而得到最优的模型参数。\[1\] Lasso模型是一种用于处理多重共线性问题的算法。它通过对系数进行L1正则化来实现特征选择。L1正则化是指将系数的绝对值乘以一个正则化系数,使得一些特征的系数变为零,从而自动丢弃这些特征。Lasso模型在sklearn库中有相应的实现。\[2\] 线性回归是回归分析中最常用的方法之一,因为它比非线性模型更容易拟合,并且估计的统计特性也更容易确定。线性回归模型可以使用最小二乘法来求解,通过最小化残差平方和来得到最优的模型参数。\[3\] 综上所述,机器学习线性回归有多种模型可供选择,包括传统的线性回归模型和Lasso模型。这些模型可以通过最小二乘法和L1正则化来求解。 #### 引用[.reference_title] - *1* [机器学习——线性回归模型及python代码实现](https://blog.csdn.net/qq_43045620/article/details/123079305)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [【机器学习线性回归】多元线性回归模型的搭建+Lasso回归的特征提取](https://blog.csdn.net/qq_43018832/article/details/128103389)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [机器学习常用模型-线性回归模型详解(简单易懂)](https://blog.csdn.net/weixin_43308610/article/details/123346498)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值