最优化方法Python计算：无约束优化应用——线性回归模型

戌崂石

已于 2024-05-11 19:36:53 修改

阅读量777

点赞数 7

分类专栏：最优化方法文章标签： python 线性回归最优化方法机器学习

于 2023-12-27 17:21:06 首次发布

本文链接：https://blog.csdn.net/u012958850/article/details/135238608

版权

最优化方法专栏收录该内容

36 篇文章

订阅专栏

本文介绍回归算法，它是监督学习模型之一，通过找出拟合函数预测输出。以最小二乘法求解无约束最优化问题得到拟合函数，同时需对数据规范化处理。若拟合函数为线性函数则是线性回归模型，文中还给出Python代码示例及应用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归算法是典型的监督学习模型之一。回归是一种统计学方法，用于根据样本数据 $(\boldsymbol{x}_i,y_i)$ ， $i=1,2,\cdots,m$ ，探究变量 $\boldsymbol{x}$ 与 $y$ 之间的关系。具体而言，回归模型的任务是找出拟合函数 $F(\boldsymbol{x})$ ，使得
$y_i\approx F(\boldsymbol{x}_i),i=1,2,\cdots,m$
并用 $F(\boldsymbol{x})$ 来对新的输入 $\boldsymbol{x}\in\text{R}^n$ 预测对应的输出 $y\in\text{R}$ 。寻求拟合函数的过程，通常是选择一个具有待定参数 $\boldsymbol{w}$ 的函数 $F(\boldsymbol{w};\boldsymbol{x})$ ，其中 $\boldsymbol{w}\in\text{R}^p,p\in\text{N}$ 。然后计算使得 $y_i\approx F(\boldsymbol{w}_0;\boldsymbol{x}_i),i=1,2,\cdots,m$ 最“合适”的参数 $\boldsymbol{w}_0$ ——称为该学习模型的模式，并将 $F(\boldsymbol{w}_0;\boldsymbol{x})$ 作为拟合函数。
此处所谓最“合适”的模式，可以从不同的角度去认知。如果从欧氏空间的集合观点，可得出回归过程最常用的最小二乘法。给定序列 $(\boldsymbol{x}_i,y_i)$ ， $i=1,2,\cdots,m$ ，最小二乘法对所选含有待定参数 $\boldsymbol{w}\in\text{R}^p$ 的函数 $F(\boldsymbol{w};\boldsymbol{x})$ ，记 $\boldsymbol{F}(\boldsymbol{w})=\begin{pmatrix} F(\boldsymbol{w};\boldsymbol{x}_1)\\F(\boldsymbol{w};\boldsymbol{x}_2)\\\vdots\\F(\boldsymbol{w};\boldsymbol{x}_m)\end{pmatrix}$ ， $\boldsymbol{y}=\begin{pmatrix} y_1\\y_2\\\vdots\\y_m \end{pmatrix}$ ，解无约束最优化问题
$\begin{cases} \min\quad\lVert\boldsymbol{F}(\boldsymbol{w})-\boldsymbol{y}\rVert^2\\ \text{s.t}\quad\boldsymbol{w}\in\text{R}^p \end{cases},$
设 $\boldsymbol{w}_0=\arg\min\limits_{\boldsymbol{w}\in\text{R}^p}\lVert\boldsymbol{F}(\boldsymbol{w})-\boldsymbol{y}\rVert^2$ ，则 $F(\boldsymbol{w}_0,\boldsymbol{x})$ 即为所求的拟合函数。
需要指出的是，在回归模型中，无论是训练部分还是预测部分，都需要对数据作一些规范化处理。首先，将样本特征向量 $\boldsymbol{x}_i=\begin{pmatrix} x_{i1}\\x_{i2}\\\vdots\\x_{in} \end{pmatrix}\in\text{R}^n,i=1,2,\cdots,m$ 将其组织成一个 $m\times n$ 矩阵
$\boldsymbol{X}=\begin{pmatrix} \boldsymbol{x}_1^\top\\\boldsymbol{x}_2^\top\\\vdots\\\boldsymbol{x}_m^\top \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{pmatrix}$
使得表达式展开时更简洁。其次，要对数据进行“标准化”处理。以消除不同量纲单位带来的数据偏差，并使数据指标处于同一数量级，更适合综合对比评价。此处以归一化作为规范化处理方式：
(1)训练阶段。此时，样本特征数据 $\boldsymbol{x}_i,i=1,2,\cdots,m$ 且 $m > 1$ 。对每个 $1\leq j\leq n$ ，第 $j$ 列数据 $\begin{pmatrix} x_{1j}\\x_{2j}\\\vdots\\x_{mj} \end{pmatrix}$ 表示 $m$ 个样本第 $j$ 个特征数据。计算每一列的最小值与最大值 $\min x_j=\min\limits_{i}\{x_{ij}\}$ 及 $\max x_j=\max\limits_{i}\{x_{ij}\}$ 。并记
$\begin{cases} \min\boldsymbol{x}=(\min x_1,\min x_2,\cdots,\min x_n)\\ \max\boldsymbol{x}=(\max x_1,\max x_2,\cdots,\max x_n) \end{cases}$
令 $\Delta\boldsymbol{x}=\max\boldsymbol{x}-\min\boldsymbol{x}=(\max x_1-\min x_1,\max x_2-\min x_2,\cdots,\max x_n-\min x_n)$ ，以
$\frac{\boldsymbol{x}_i^\top-\min\boldsymbol{x}}{\Delta\boldsymbol{x}}=\left(\frac{x_1-\min x_1}{\max x_1-\min x_1},\frac{x_2-\min x_2}{\max x_2-\min x_2},\cdots,\frac{x_n-\min x_n}{\max x_n-\min x_n}\right)$
作为 $\boldsymbol{x}_i^\top$ 归一化后的向量， $i=1,2,\cdots,m$ 。
相仿地，对接收到的标签数据 $y_i$ ， $i=1,2,\cdots,m$ ，记 $\min y=\min\limits_{i}\{y_i\},\max y=\max\limits_{i}\{y_i\}$ ，以
$\frac{y_i-\min y}{\max y-\min y}$
作为 $y_i$ 归一化后的值。数据归一化后，其值均介于0,1之间。
(2)预测阶段。此时，只有新样本的特征向量 $\boldsymbol{x}_i$ ， $i=1,2,\cdots,m$ 。进行归一化时，需要用训练时算得的 $min_j$ 和 $max_j$ 进行计算。这是因为，我们认为训练数据是总体的简单样本，其统计特征值（最小值、最大值）表示总体的近似分布。而检测数据也来自同一总体，出于一致性考虑，使用训练时取得的最大值、最小值对检测数据作归一化计算。
回归模型中，若拟合函数选择为线性函数，即
$y=F(\boldsymbol{w};\boldsymbol{x})=\sum_{i=1}^nw_ix_i+w_{n+1}=(\boldsymbol{x}^\top,1)\boldsymbol{w}$
则称为线性回归模型。其中， $w_1,w_2,\cdots,w_n$ 为 $x_1,x_2,\cdots,x_n$ 的加权和 $\sum\limits_{i=1}^nw_ix_i$ 的系数， $w_{n+1}$ 为偏移量。线性回归模型可图示化为
在这里插入图片描述

下面，将线性回归模型定义成类LineModel。

import numpy as np											#导入numpy
from scipy.optimize import minimize							#导入minimize
class LineModel():											#线性模型
    def xnormalize(self, x, trained):						#样本特征数据归一化方法
        if not trained:										#训练前
            xmin = np.min(x,axis = 0)						#按列计算最小值
            xmax = np.max(x,axis = 0)						#按列计算最大值
            self.xmin = xmin								#记录计算结果
            self.xmax = xmax
        else:												#测试或预测前
            xmin = self.xmin								#使用训练时记录的数据
            xmax = self.xmax
        return (x - xmin) / (xmax - xmin) 
    def ynormalize(self, y, trained):						#样本标签归一化方法
        if not trained:										#训练前
            self.ymin = np.min(y)							#记录最小值
            self.ymax = np.max(y)							#记录最大值
        return (y - self.ymin)/(self.ymax - self.ymin)
    def pretreat(self, x, y = None, trained = False):		#数据预处理函数
        if isinstance(y, np.ndarray):						#需处理样本标签
            y = self.ynormalize(y, trained)					#归一化标签
        if not isinstance(x, np.ndarray):					#一个一元样本
            x = np.array([x]).reshape(1, 1)
        else:
            if len(x.shape) == 1:							#一维数组
                if self.scalar:								#多个一元样本
                    x = x.reshape(x.size,1)
                else:										#一个多元样本
                    x = x.reshape(1,x.size)
        x = self.xnormalize(x, trained)						#归一化样本特征
        m = x.shape[0]										#样本个数
        return np.hstack((x, np.ones(m).reshape(m, 1))), y	#x添加一列1
    def fit(self, X, Y, w=None):							#训练方法
        print("训练中...，稍候")
        self.scalar = (len(X.shape)==1)						#记录一元样本特征
        self.A, self.y = self.pretreat(X, Y)				#预处理训练数据
        p = self.patternlen()								#计算模式长度
        if w == None:										#未传递初始参数向量w
            w = np.random.random(p)							#随机产生初始向量w
        else:
            if type(w) == int or type(w) == float:			#常数
                w=np.array([w]*p)
        res = minimize(self.obj, w,							#解最优化问题
        	       method = conjFR,options={'gtol':1e-4})
        self.pattern = res.x								#记录模式
        print("%d次迭代后完成训练。"%res.nit)
    def predict(self, X):									#预测方法
        X, _ = self.pretreat(X, trained=True)				#归一化样本特征数据
        yp = self.F(self.pattern, X)						#计算拟合函数值
        if yp.size == 1:									#单样本预测值
            yp = yp[0]
        return yp*(self.ymax - self.ymin) + self.ymin
    def obj(self,w):										#目标函数
        return np.linalg.norm(self.F(w, self.A) - (self.y))**2
    def patternlen(self):									#模式长度函数
        return self.A.shape[1]
    def F(self, w, x):										#线性拟合函数
        return np.matmul(x,w)

借助代码内的注释信息，看官不难理解程序。需要注意的是，训练函数fit中第43~44行调用scipy.optimize的minimize函数（第2行导入）计算目标函数obj的最优解，所用的方法conjFR是我们在博文《最优化方法Python计算：非二次型共轭梯度算法》中定义的。
例1 为研究某一化学反应过程中，温度 $x$ （℃）对产品得率 $y$ （%）的影响，测得数据如下

$x$	$100$	$110$	$120$	$130$	$140$	$150$	$160$	$170$	$180$	$200$
$y$	$45$	$51$	$54$	$61$	$66$	$70$	$74$	$78$	$85	$89$

记 $\boldsymbol{x}=(100,110,120,130,140,150,160,170,180,200)^\top$ ， $\boldsymbol{y}=(45,51,54,61,66,70,74,78,85,89)^\top$ 。试用上述程序中定义的LinearModel类创建一个线性回归模型，并用数据 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 训练模型，预测温度 $x = 147$ 时的得率。
解：下列代码完成计算

import numpy as np												#导入numpy
x=np.array([100, 110, 120, 130, 140, 150, 160, 170, 180, 200])	#样本特征数据
y=np.array([45, 51, 54, 61, 66, 70, 74, 78, 85, 89])			#标签数据
chemical = LineModel()									#构造线性回归模型
chemical.fit(x, y)												#训练
pattern = chemical.pattern										#最优模式
print('模式：%s'%pattern)
x1 = 147														#新的样本特征
print('对温度x1=%d，预测得率y=%.2f'%(x1,chemical.predict(x1)) + '%')

运行程序，输出

训练中...，稍候
3次迭代后完成训练。
模式：[1.03354978 0.03138529]
对温度x1=147，预测得率y=67.75%

写博不易，敬请支持：
如果阅读本文于您有所获，敬请点赞、评论、收藏，谢谢大家的支持！