机器学习笔记之贝叶斯线性回归(一)线性回归背景介绍

引言

本节开始,介绍贝叶斯线性回归(Bayesian Linear Regression)。

回顾:线性回归

场景构建

给定数据集合 D a t a = { ( x ( i ) , y ( i ) ) } i = 1 N \mathcal Data = \left\{\left(x^{(i)},y^{(i)}\right)\right\}_{i=1}^N Data={ (x(i),y(i))}i=1N,其中样本 x ( i ) ( 1 = 1 , 2 , ⋯   , N ) x^{(i)}(1 = 1,2,\cdots,N) x(i)(1=1,2,,N) p p p维随机变量,对应的标签信息 y ( i ) y^{(i)} y(i)是一维随机变量:
x ( i ) ∈ R p , y ( i ) ∈ R i = 1 , 2 , ⋯   , N X = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) ) T = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯   , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯   , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯   , x p ( N ) ) N × p Y = ( y ( 1 ) y ( 2 ) ⋮ y N × 1 ( N ) ) \begin{aligned} x^{(i)} & \in \mathbb R^p,y^{(i)} \in \mathbb R \quad i=1,2,\cdots,N \\ \mathcal X & = \left(x^{(1)},x^{(2)},\cdots,x^{(N)}\right)^T = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \\ \end{pmatrix}_{N \times p} \quad \mathcal Y = \begin{pmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}_{N \times 1} \end{pmatrix} \end{aligned} x(i)XRp,y(i)Ri=1,2,,N=(x(1),x(2),,x(N))T= x1(1),x2(1),,xp(1)x1(2),x2(2),,xp(2)x1(N),x2(N),,xp(N) N×pY= y(1)y(2)yN×1(N)

从概率密度函数认识最小二乘法

给定数据集合 D a t a Data Data以及相应拟合直线表示如下:
线性回归——示例
其中直线的表达式为:
这里‘偏置信息’ b b b忽略掉, x i ( i = 1 , 2 , ⋯   , p ) x_i(i=1,2,\cdots,p) xi(i=1,2,,p)表示样本的第 i i i维特征信息。
f ( X ) = W T X = X T W = ∑ i = 1 p w i ⋅ x i f(\mathcal X) = \mathcal W^T \mathcal X = \mathcal X^T \mathcal W = \sum_{i=1}^p w_i \cdot x_i f(X)=WTX=XTW=i=1pwixi
概率密度函数角度观察,标签分布可看作是 f ( x ) f(x) f(x)的基础加上均值为0的高斯分布噪声
X \mathcal X X是包含 p p p维特征的随机变量集合; Y \mathcal Y Y是一个一维随机变量; ϵ \epsilon ϵ表示一维高斯分布(它和 Y \mathcal Y Y的维数相同)。
Y = f ( X ) + ϵ X ∈ R p , Y ∈ R , ϵ ∼ N ( 0 , σ 2 ) \mathcal Y = f(\mathcal X) + \epsilon \quad \mathcal X \in \mathbb R^p,\mathcal Y \in \mathbb R,\epsilon \sim \mathcal N(0,\sigma^2) Y=f(X)+ϵXRp,YR,ϵN(0,σ2)

回顾:最小二乘估计

关于线性回归问题求解模型参数 W \mathcal W W时,使用的是最小二乘估计(Least Square Estimation,LSE)
L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 L(W)=i=1N∣∣WTx(i)y(i)2
并且通过最小二乘估计,求解模型参数 W \mathcal W W矩阵形式表达
矩阵表达的弊端

  • X T X \mathcal X^T\mathcal X XTX是一个 p × p p \times p p×p的对称矩阵,它至少是半正定矩阵,但不一定是正定矩阵。从而导致 ( X T X ) − 1 (\mathcal X^T\mathcal X)^{-1} (XTX)1可能是不可求的。
  • 由于 X \mathcal X
  • 5
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值