[机器学习与scikit-learn-27]：算法-回归-多元线性回归的几何原理、线性代数原理、本质（去掉激活函数的神经元）

回归算法源于统计学理论，它可能是机器学习算法中产生最早的算法之一，其在现实中的应用
非常广泛，包括使用其他经济指标预测股票市场指数，根据喷射流的特征预测区域内的降水量，根据公司的广告花费预测总销售额，或者根据有机物质中残留的碳-14的量来估计化石的年龄等等，只要一切基于特征预测连续型变量的需求，我们都使用回归技术。

既然线性回归是源于统计分析，是结合机器学习与统计学的重要算法。通常来说，我们认为统计学注重先验，重还原历史，而机器学习重结果，重在预测未来。

1.4 回归算法的种类

回归需求在现实中非常多，也有各种各样的回归类算法。

（1）根据输出的目标来分类

逻辑回归：输出是离散量（用于分类）：用数学曲线进行分割，分类，上图用直线分割样本的分布，即用直线分割自变量与因变量的空间位置关系。
模拟回归：输出是连续量（用于拟合）：用数学曲线进行模拟、拟合，上图用直线拟合自变量与因变量的关系。

（2）根据回归的因变量与自变量的关系来分

线性回归：自变量与因变量的关系是一次函数关系，即直线关系。

非线性归回：自变量与因变量的关系是二次以及以上的函数关系，即非直线关系。

（3）根据自变量的数量来分

一元回归：一个自变量属性，一个因变量输出

y = kx + b

多元回归：多个自变量属性，一个因变量输出

多元线性（直线叠加）：

多元非线性（多项式）：

回归问题在现实中的泛用性，回归家族可以说是非常繁荣昌盛，家大业大了。

在此基础之上，衍生出了岭回归，Lasso，弹性网，除此之外，还有众多分类算法改进后的回归，比如回归树，随机森林的回归，支持向量回归，贝叶斯回归等等。除此之外，我们还有各种鲁棒的回归：比如RANSAC，Theil-Sen估计，胡贝尔回归等等。

1.5 线性回归的结果问题的思路

回归类算法的数学相对简单，通常，理解线性回归可以有两种角度：矩阵的角度和代数的角度。

回归的本质代数，是因变量y（输出）与自变量（输入Xi）的关系。

回归的表达式矩阵，线性代数，通过矩阵来表达多元自变量Xi同时与一元输出y之间的内在多重关系（矩阵系数）。

几乎所有机器学习的教材都是从线性代数的角度来理解线性回归的，类似于我们在逻辑回归和支持向量机中做的那样，将求解参数（系数矩阵）的问题转化为一个带条件的最优化问题，然后使用三维图像让大家理解求极值的过程。

1.6 线性回归的本质

就是给定一组样本，N元自变量输入(Xi, i=0,1,2...N-1)和因变量输出，通过某种自带参数的数据模型去拟合样本内部的关系，最简单的线性模型就是直线模型：y=kx+b，其中k，b就是模型自带的参数，x就是输入因变量，y是因变量输出。

第2章多元线性回归

最常见的回归模型是：多元线性回归，结合数据的预处理技术可以解决线性拟合和非线性拟合问题。

2.1 一元线性回归的本质与原理

（1）从何几点角度看

一元线性回归的样本点(X,Y)，就是二维平面上的点。

（2）从代数的角度看

就是根据样本数据(X,Y)的数值，求y = kx + b中参数k和b的最佳值的过程。

两个样本点：(X1, Y1), (X2, Y2) 决定一条直线。

当有无数个样本点的时候，无法用一条直线穿过所有的样本点，只能优化拟合出一条直线(y=kx+b), k和b是待优化的参数，使得所有的样本点到该直线的距离之和最小。

2.2 二元线性回归

（1）从何几点角度看

一元线性回归的样本点(X1, X2, Y)，就是三维空间上的空间点。

X1和X2是不同的维度。

(X1, Y)的关系就是在（X1, Y）平面上的投影平面上的点。

(X2, Y)的关系就是在（X2, Y）平面上的投影平面上的点。

(X1, X2, Y)的关系（X1, X2, Y）在空间中的点。

（2）从代数的角度看

就是根据样本数据(X1,X2,Y)的数值，求y = k1x1+ b1 + k2x2 + b2 = k1x1 + k2x2 + b中参数k1，k2, b的最佳值的过程。这是两条直线在空间中联合，联合成一个空间的平面。

空间中的3个样本点(X11,X21,Y1)， (X12,X22,Y2)决定一个空间平面。

空间中的3个样本点(X1,Y,Z1)，(X2,Y2,Z2)， (X3,Y3,Z3)决定一个空间平面。

当有无数个样本点的时候，无法用一个平面穿过所有的样本点，只能优化拟合出一个平面(y=K1X1 + K2X2 + b), k1, K2和b是待优化的参数，使得所有的样本点到该片面的距离之和最小。

2.3 多元线性回归的几何原理

通用表达式：（X1, Xi, ...Xn，Y）

（1）当n=1时，为一元回归，用一直线拟合二维平面上的部分点。

所谓拟合，所谓机器学习，就是通过求解找到参数k和b，使得现存的样本点到拟合直线的距离的平方和最小。

（2）当n=2时，为二元回归，用一平面拟合三维空间中的部分点。

所谓拟合，所谓机器学习，就是通过求解找到参数k1, k2和b，使得现存的样本点到拟合平面的距离的平方和最小。

（3）当n=3时，为三元回归，用一立体拟合四维空间中的部分点。

所谓拟合，所谓机器学习，就是通过求解找到参数k1, k2, k3和b，使得现存的样本点到拟合立方体的距离的平方和最小。

（4）当n=m时，为m元回归，用m维空间的形态拟合m+1维空间中的部分点。

m维空间，在m+1为空间中，只是部分的样本点分布，只占用m+1维空间的部分空间。

m维是属性值，第m+1维度是标签值。

2.4 多维线性回归的线性代数原理

2.5 多元线性回归与深度学习的神经元

我们会发现，多元线性回归，就是深度学习神经元，是去掉激活函数的单个神经元！！！

第3章最小二乘法求解多维线性拟合的参数

所谓拟合，所谓机器学习，就是通过求解找到参数k1, k2, k3,...km和b（它们代表拟合出来的m维空间的形状），使得现存的m+1维度空间中的样本点到拟合出来的m维空间形状的距离的平方和最小。数学上，这种求解方法，称为最小二乘法。

3.1 什么最小二乘法概述

最小二乘法公式是一个数学的公式，在数学上称为曲线拟合，不仅仅包括线性回归方程，还包括矩阵的最小二乘法。

最小二乘法也可以叫做最小平方和，其目的就是通过最小化该误差的平方和，使得拟合对象或拟合函数无限接近目标对象。换句话说，最小二乘法可以用于对函数的拟合。

Y = K1X1 + K2X2+.....KmXm + B

有了上述的公式可以看出：

（1）(X1i, X2i, .....Xni，Yi)是已知的。n是维度，i是样本序号。

（2）K1, K2.....Km，b是未知的。

（3）E = f(K1, K2.....Km，b)是多元二次函数关系，有最小值，如抛物线。

备注：

最小二乘是用来表达拟合曲线与正式样本之间的误差的函数，

可以通过牛顿法、梯度下降法获得K1, K2....Km，b的最佳值，是的在现有样本上的误差最小！！！

3.2 关于二乘法的进一步了解

[数值计算-16]：最小二乘法的求解1 - 一元二次方程解析法求解_文火冰糖的硅基工坊的博客-CSDN博客_最小二乘法求二次方程

[数值计算-17]：最小二乘法的求解2 - 二元二次线性方程组求解_文火冰糖的硅基工坊的博客-CSDN博客_最小二乘法在线

[数值计算-18]：最小二乘的求解法3 - 链式求导与梯度下降法求解loss函数的最优化参数（Python, 超详细、可视化）_文火冰糖的硅基工坊的博客-CSDN博客_链式法则求导例题

最小二乘法的本质是什么？ - 知乎

[数值计算-11]：多元函数求最小值 - 偏导数与梯度下降法&Python法代码示例_文火冰糖的硅基工坊的博客-CSDN博客

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/123540305

[机器学习与scikit-learn-27]：算法-回归-多元线性回归的几何原理、线性代数原理、本质（去掉激活函数的神经元）

第1章 回归概述

1.1 回归的案例

1.2 什么是回归

1.3 应用场合