机器学习Day 03

最新推荐文章于 2024-08-06 22:06:17 发布

Charonljj

最新推荐文章于 2024-08-06 22:06:17 发布

阅读量162

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_37972215/article/details/78966125

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

线性模型

基本形式

给定一个由 $d个属性描述的示例x=(x_1,x_2,...,x_d)$ ，其中 $x_i是x在第i个属性上的取值$ ，线性模型（linear model）试图学得一个通过属性的现实组合来进行预测的函数，即

f (x) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b

$f(x)=w_1 x_1+w_2 x_2+...+w_d x_d+b$
一般用向量形式写成

f (x) = w T x + b

$f(x)=w^T x+b$
其中

w=(w1,w2,...,wd)。w和b学得之后，模型就得以确定。 $w=(w_1,w_2,...,w_d)。w和b学得之后，模型就得以确定。$ 由于

w $w$ 直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性（comprehensibility）。
许多功更为强大的非线性模型（nonlinear mobel）可在线性模型的基础上通过引入层级结构或高维映射而得。

线性回归

线性回归（linear regression）试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性，若属性值间存在序（order）关系，可通过连续化将其转化为连续值；若属性值间不存在序关系，假定有 $k$ 个属性值，则通常转化为 $k$ 维向量，但会不恰当地引入序关系，对后续处理造成误导。
线性回归试图学得

f (x i) = w T x i + b ， 使 得 f (x i) ≃ y i

$f(x_i)=w^T x_i+b，使得f(x_i) \simeq y_i$
显然关键在于如何衡量

f(x)与y之间的差距。 $f(x)与y之间的差距。$ 均方差是回归任务中最常用的性能度量，因此我们可以试图让均方误差（square loss）最小化，即

(w *, b *) = arg max (w, b) \sum i = 1 m (f (x i) - y i) 2 = arg max (w, b) \sum i = 1 m (y i - w x 1 - b) 2

$(w^*,b^*) = \mathop{\arg\max}_{(w,b)} \sum _{i=1} ^{m} {(f(x_i)-y_i)}^2= \mathop{\arg\max}_{(w,b)}\sum _{i=1} ^{m} {(y_i-w x_1-b)}^2$
均方误差有很好的几何意义，它对应了常用的欧几里德距离（Euclidean distance）。基于均方误差最小化来进行模型求解的方法称为最小二乘法（least square method）。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小。
求解

w和b使E(w,b)=∑mi=1(yi−wx1−b)2 $w和b使E(w,b)=\sum _{i=1} ^{m} (y_i-w x_1-b)^2$ 最小化的过程，称为线性回归模型的最小二乘参数估计（parameter estimation)。

将E分别对w和b求导 $将E分别对w和b求导$ ，解

\partial E ( w , b ) \partial w = 2 （ w \sum i = 1 m x 2 i - \sum i = 1 m (y i - b) x i ） = 0

$\frac {\partial E_{(w,b)}}{\partial w} = 2（w \sum _{i=1} ^{m} {x_i ^2}-\sum _{i=1} ^{m}{(y_i-b)x_i}）=0$

\partial E ( w , b ) \partial b = 2 (m b - \sum i = 1 m (y i - w x i)) = 0

$\frac {\partial E_{(w,b)}}{\partial b}=2(mb-\sum _{i=1} ^{m} (y_i-w x_i))=0$
得

w = \sum m i = 1 y i ( x i - x ¯ ) \sum m i = 1 x 2 i - 1 m ( \sum m i = 1 x i ) 2, x ¯ = 1 m \sum i = 1 m x i

$w=\frac {\sum _{i=1} ^{m}{y_i(x_i-\bar{x})}}{\sum _{i=1} ^{m} {x_i^2}-\frac{1}{m} (\sum _{i=1} ^{m} {x_i})^2},\quad \bar{x}=\frac{1}{m} \sum _{i=1} ^{m}{x_i}$

b = 1 m \sum i = 1 m (y i - w x i) 。

$b=\frac{1}{m}\sum _{i=1} ^{m}(y_i-wx_i)。$
这里 $E_{(w,b)}$ 是关于 $w$ 和 $b$ 的凸函数，当关于 $w$ 和 $b$ 的导数均为零时，得到 $w$ 和 $b$ 的最优解。
对于区间 $[a,b]$ 上定义的函数 $f$ ，若它对区间中任意两点 $x_1,x_1$ 均有 $f(\frac{x_1+x_2}{2}) \leq \frac{f(x_1)+f(x_2)}{2}$ ，则称 $f$ 为区间 $[a,b]$ 的凸函数。对实数集上的函数，可以通过求二阶导数来判断：若二阶导数在区间上非负，则称凸函数；若二阶导数在区间上恒大于零，则称严格凸函数（与同济大学出版的高等数学教材中凹凸函数定义正好相反）。
当样本由

d $d$ 个属性描述，此时试图学得

f (x i) = w T x i + b ， 使 得 f (x i) ≃ y i

$f(x_i)=w^T x_i+b，使得f(x_i) \simeq y_i$
称为多元线性回归（multivariate linear regression）。
类似的，同样可以利用最小二乘法来对

w和b $w和b$ 进行估计。我们把

w和b $w和b$ 吸入向量形式

wˆ=(w;b)， $\widehat {w} =(w;b)，$ 把数据集

D $D$ 表示为一个

m×(d+1) $m \times (d+1)$ 大小的矩阵

X $X$ ，即

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 111 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X=\left[ \begin{matrix} x_{11} & x_{12} &\cdots &x_{1d} & 1\\ x_{21} & x_{22} &\cdots &x_{2d} & 1\\ \vdots &\vdots &\ddots &\vdots \\ x_{m1} & x_{m2} &\cdots &x_{md} & 1\\ \end{matrix} \right]= \left[ \begin{matrix} x_1^T&1\\ x_2^T&1\\ \vdots &\vdots\\ x_m^T&1 \end{matrix} \right]$