机器学习入门以及Linear regression(线性回归)

最新推荐文章于 2024-05-20 20:59:12 发布

程适场

最新推荐文章于 2024-05-20 20:59:12 发布

阅读量236

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41876213/article/details/107813238

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

线性回归几乎是所有机器学习的入门课程，但是由于符号定义表达方式不同，造成了很多人在入门时期感觉跟多向量非常矛盾。比如所行向量还是列向量， $\textbf{x}_i$ 以及 $\textbf{x}_j$ 究竟是行还是列等等，本篇将先介绍向量以及列表相关的例子，然后再介绍线性回归的内容。

入门解惑

对于大多数教程而言，一份统计表的形式往往如下所示:
示例1：
示例1为默认格式，也是大多数博客或文章采用的格式。

	属性1	属性2	属性3	属性4	…
元组1
元组2
元组3
元组i	…	…	…	…	…

采用向量描述:

	属性1	属性2	属性3	属性4	…
元组i	$x_{i1}$	$x_{i2}$	$x_{i3}$	$x_{i4}$	…

$\textbf{x}_i$ 代表行，但是并不能单纯地认为代表行的就是行向量，实际上大多数书籍或博客中默认都是列向量，如果有定义最好看清楚定义。
形如 $\textbf{x}_i=(x_{i1},x_{i2},x_{i3},x_{i4},...x_{in})^T$ 是列向量
形如 $\textbf{x}_i=(x_{i1},x_{i2},x_{i3},x_{i4},...x_{in})$ 是行向量

	属性j	…
元组1	$x_{1j}$
元组2	$x_{2j}$
元组3	$x_{3j}$
元组i	$x_{ij}$	…

$\textbf{x}_j$ 代表列，单纯地看表格实际上无法判断是否是列还是行向量，同样大多数默认是列向量，具体需要看定义。
形如 $\textbf{x}_j=(x_{1j},x_{2j},x_{3j},x_{4j},...x_{nj})^T$ 是列向量
形如 $\textbf{x}_j=(x_{1j},x_{2j},x_{3j},x_{4j},...x_{nj})^T$ 是行向量
其对应的具体实例:

编号	年龄	性别	身高	体重	电话
1	18	男	180	80	18938298162
2	17	男	180	80	18938298152
3	15	男	180	80	18938298142
4	16	男	180	80	18938298132
5	14	男	180	80	18938294122

定义 $\textbf{x}_i=(x_{i1},x_{i2},x_{i3},x_{i4},...x_{in})^T$
那么第一行可以表示为 $\textbf{x}_1=(1，18，男，180，80，18938298162)^T$
定义 $\textbf{x}_j=(x_{1j},x_{2j},x_{3j},x_{4j},...x_{nj})^T$
那么第一列可以表示为 $\textbf{x}_j=(1,2,3,4,5)^T$
示例2.1
但是有些表格不按照上面的通用格式，例如

	元组1	元组2	元组3	元组4	…
属性1
属性2
属性3
属性4

当看到这种形式的表时，就需要警惕 $\textbf{x}_i$ 与 $\textbf{x}_j$ 究竟是代表行还是列。
一般默认 $\textbf{x}_i$ 表示行，默认是列向量，具体看定义甚至文章语义。

	元组1	元组2	元组3	元组4	…
属性i	${x}_{i1}$	${x}_{i2}$	${x}_{i3}$	${x}_{i4}$	…

一般情况下默认 $\textbf{x}_j$ 仍然表示列，默认是列向量，具体看定义甚至文章语义。

	元组j	…
属性1	$x_{1j}$
属性2	$x_{2j}$
属性3	$x_{3j}$
属性4	$x_{4j}$

示例2.2
有时也会出现例外，仍然是示例2.1中的表格，如下：(个人认为可能作者本人找到的示例表格形式是示例2.1的形式，但是理论知识却按照示例1的格式，作者只是想稍微偷懒不改了。)
此时 $\textbf{x}_j$ 表示行，默认是列向量，具体是什么向量看定义甚至文章语义。

	元组1	元组2	元组3	元组4	…
属性j	${x}_{1j}$	${x}_{2j}$	${x}_{3j}$	${x}_{4j}$	…

$\textbf{x}_i$ 表示列，默认是列向量，具体是什么向量看定义甚至文章语义。

	元组i	…
属性1	$x_{i1}$
属性2	$x_{i2}$
属性3	$x_{i3}$
属性4	$x_{i4}$

实际上遇到这种情况时可以将表格转置成示例一的形式。

正题开始–Linear regression

线性回归实际上是一种拟合方式，在现实应用中如果明确知道数据符合线性关系，那么直接使用即可；但是当不知道数据的关系时，如果是二维或三维数据，将离散数据绘制出来，观察数据之间的关系大致上符合线性关系也可以应用，如果是高维数据，线性回归可以作为一个数学模型参考使用，最终需要分析误差来决定是否采用这种模型。

符号定义
为了方便可视化，先处理二维数据看看实验效果，如下:

属性x	结果y
1	7
2	10
3	12
4	16
5	18
6	23

$\textbf{x}_i=(x_{i1},x_{i2},x_{i3},x_{i4},...,x_{ij},...x_{in})^T$ 是列向量，在表格中表示属性行，不包括结果。
$\textbf{x}_j=(x_{1j},x_{2j},x_{3j},x_{4j},...,x_{ij},...x_{mj})^T$ 是列向量，在表格中表示列。
$\textbf{x}=(\textbf{x}_1^T;\textbf{x}_2^T;\textbf{x}_3^T;...;\textbf{x}_m^T)$
$x_{ij}$ 表示第i行第j列属性，对应表中的属性值。
$\hat\textbf{y}=(\hat{y}_1,\hat{y}_2,...,\hat{y}_i,...\hat{y}_m)^T$ 是列向量，对应表格中的结果。
$\textbf{y}=(y_1,y_2,...,y_i,...y_m)^T$ 是列向量，对应拟合的结果。
$\textbf{w}=(w_1,w_2,...w_j,...,w_n)^T$ 是列向量，表示回归系数。
b是常数项。

推导过程
线性回归公式
${y}_i=\sum_{j=1}^{n}w_jx_{ij}+b=\textbf{x}_i^T\textbf{w}+b$
为了方便矩阵表示，可以重定义向量 $\textbf{w}$ 以及向量 $\textbf{x}_i$
$\textbf{w}=(b,w_1,w_2,...,w_j,...,w_n)^T$
$\textbf{x}_i=(1,x_{i1},x_{i2},x_{i3},x_{i4},...,x_{ij},...,x_{in})^T$
重定义之后
$y_i=\textbf{x}_i^T\textbf{w}$
$\textbf{y}=\textbf{x}\textbf{w}\tag{1}$
为了求出系数 $\textbf{w}$ ，求解策略是使拟合结果与实际结果误差最小。
误差公式表示为
$e=\sum_{i=1}^{m}(y_i-\hat{y}_i)^2=(\textbf{y}-\hat\textbf{y})^T(\textbf{y}-\hat\textbf{y})=(\textbf{x}\textbf{w}-\hat\textbf{y})^T(\textbf{x}\textbf{w}-\hat\textbf{y})\tag{2}$
求解目标
$\arg \space \min\limits_{\textbf{w}}{e}\tag{3}$

可以证明e是关于 $\textbf{w}$ 的一个凸函数，e存在最小值且为极小值，那么e的极小值点(导数为0)所在位置就是向量 $\textbf{w}$ 的取值，接下来需要对向量求导(具体方法见我的另一篇博文)，
$\frac{de}{d\textbf{w}}=\frac{d((\textbf{x}\textbf{w}-\hat\textbf{y})^T(\textbf{x}\textbf{w}-\hat\textbf{y}))}{\textbf{w}}$
复合函数求导，令向量 $\textbf{u}=(\textbf{x}\textbf{w}-\hat\textbf{y})$
$\frac{de}{d\textbf{w}}=\frac{d\textbf{u}}{d\textbf{w}}\frac{d\textbf{u}^T\textbf{u}}{d\textbf{u}}=\textbf{x}^T2(\textbf{x}\textbf{w}-\hat\textbf{y})=2(\textbf{x}^T\textbf{x}\textbf{w}-\textbf{x}^T\hat\textbf{y})\tag{4}$
最终的求解结果是个列向量且 $\frac{de}{d\textbf{w}}=\textbf{0}=(0,0,0,...,0)^T$
很容易看出 $\textbf{w}=(\textbf{x}^T\textbf{x})^{-1}\textbf{x}^T\hat\textbf{y}$ ，当且仅当 $\textbf{x}^T\textbf{x}$ 的逆存在时成立。
此时有些人可能会疑惑 $\textbf{w}=\textbf{x}^{-1}\hat\textbf{y}$ 时也成立，但是实际情况是 $\textbf{x}$ 常常不是方阵，没有逆。

常用解法
1.牛顿法
牛顿法的迭代公式为
$\textbf{w}_{t+1}=\textbf{w}_t-\triangledown{^2f(\textbf{w}_t)}^{-1}\triangledown{f(\textbf{w}_t)}$
由(4)得 $\triangledown{f(\textbf{w})}=2(\textbf{x}^T\textbf{x}\textbf{w}-\textbf{x}^T\hat\textbf{y})$
求 $\triangledown{^2f(\textbf{w})}=2\textbf{x}^T\textbf{x}\textbf{E}$
那么 $\triangledown{^2f(\textbf{w})}^{-1}=\frac{1}{2}(\textbf{x}^T\textbf{x})^{-1}$
那么 $\textbf{w}_{t+1}=\textbf{w}_{t}-(\textbf{x}^T\textbf{x})^{-1}(\textbf{x}^T\textbf{x}\textbf{w}_t-\textbf{x}^T\hat\textbf{y})=(\textbf{x}^T\textbf{x})^{-1}\textbf{x}^T\hat\textbf{y}$
对于本问题一步迭代即可得到最终结果，而且与上面看出的结果一致。
直接在控制台上运行
在这里插入图片描述

2.梯度下降法
梯度下降法迭代公式为
$\textbf{w}_{t+1}=\textbf{w}_t-\alpha\triangledown{f(\textbf{w}_t)}$
实验结果
在这里插入图片描述
可以看到梯度下降算法与牛顿法求取的结果近似相等。
绘制图像

python代码

import numpy as np
import matplotlib.pyplot as plt
#输入数据以及\alpha
#梯度下降
def desc(data,a):
	row,col=data.shape
	w1=np.zeros([col,1])
	w=np.ones([col,1])
	#合并数组
	x=np.append(data[:,:-1],np.ones([row,1]),axis=1)
	y=data[:,-1:]
	while sum(abs(w1-w))[0]>0.001:
		w=w1
		dfw=2*(np.dot(np.dot(x.T,x),w)-np.dot(x.T,y))
		w1=w-a*dfw
	return w1
#针对二维平面绘制图像
def draw(data):
	x=np.array(range(0,10))
	y=w[0]*x+w[1]
	plt.scatter(data[:,:-1],data[:,-1:])
	plt.plot(x,y,color='red')
	plt.show()

data=np.array([[1,2,3,4,5,6],[7,10,12,16,18,23]]).T
w=desc(data,0.01)
print(desc(data,0.01))
draw(data)

程适场

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门以及Linear regression(线性回归)

线性回归几乎是所有机器学习的入门课程，但是由于符号定义表达方式不同，造成了很多人在入门时期感觉跟多向量非常矛盾。比如所行向量还是列向量，xi\textbf{x}_ixi以及xj\textbf{x}_jxj究竟是行还是列等等，本篇将先介绍向量以及列表相关的例子，然后再介绍线性回归的内容。入门解惑对于大多数教程而言，一份统计表的形式往往如下所示:示例1：示例1为默认格式，也是大多数博客或文章采用的格式。属性1属性2属性3属性4…元组1元组2
复制链接

扫一扫