利用线性回归预测隧道车流量

最新推荐文章于 2023-02-16 15:00:08 发布

AI视觉萌

最新推荐文章于 2023-02-16 15:00:08 发布

阅读量2k

点赞数 4

分类专栏：机器学习文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/u011278431/article/details/105922369

版权

本文介绍了线性回归在预测隧道车流量中的应用，详细讲解了最小二乘法和梯度下降法的原理，通过这两种方法求解模型参数。实际预测中，最小二乘法给出的模型为y = 7.42804x + 29150.50134，对于单一数据集，线性回归表现良好。

摘要由CSDN通过智能技术生成

一、线性回归的定义

回归是监督学习的一个重要问题，回归用于预测输入变量和输出变量之间的关系。回归模型是表示输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合：使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据。

回归问题分为模型的学习和预测两个过程。基于给定的训练数据集构建一个模型，根据新的输入数据预测相应的输出。

回归问题按照输入变量的个数可以分为一元回归和多元回归；按照输入变量和输出变量之间关系的类型，可以分为线性回归和非线性回归。

一元回归：y = ax + b
在这里插入图片描述
多元回归：

其中，theta是参数，x是我们的训练数据和检测数据中的特征值。实际上，theta是未知量，我们的目标就是通过训练数据调整theta，来使得输出的结果更接近真实值。

二、回归问题求解

2.1最小二乘法

最小二乘法又称最小平方法，它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。
现在假设我们有m个样本，我们假设有：
在这里插入图片描述
表示输出值和真实值之间的误差

根据中心极限定理，由于误差项是好多好多相互独立的因素影响的综合影响，我们有理由假设其服从高斯分布，又由于可以自己适配theta0，误差项的高斯分布均值为0，所以我们有
在这里插入图片描述
其中，对于正太分布
期望μ = 0，标准差为σ
将
用训练数据替换：：

因为我们认为这些数据是独立同分布的，因此所有的训练数据的联合概率就是各自的边缘概率的乘积，得到似然函数：：

由极大似然估计的定义，我们需要L(theta)最大，那么我们怎么才能是的这个值最大呢？两边取对数对这个表达式进行化简如下：
在这里插入图片描述
所以，我们最后由极大似然估计推导得出，我们希望 J(theta) 最小，而这刚好就是最小二乘法做的工作。而回过头来我们发现，之所以最小二乘法有道理，是因为我们之前假设误差项服从高斯分布，假如我们假设它服从别的分布，那么最后的目标函数的形式也会相应变化。

好了，上边我们得到了有极大似然估计或者最小二乘法，我们的模型求解需要最小化目标函数J(theta)，那么我们的theta到底怎么求解呢？有没有一个解析式可以表示theta?
在这里插入图片描述
我们需要最小化目标函数，关心 theta 取什么值的时候，目标函数取得最小值，而目标函数连续，那么 theta 一定为目标函数的驻点，所以我们求导寻找驻点。

求导可得：
在这里插入图片描述
最终我们得到参数 theta 的解析式：

上述最后一步有一些问题，假如 X’X不可逆呢？

我们知道 X’X 是一个办正定矩阵，所以若X’X不可逆或为了防止过拟合，我们增加lambda扰动，得到
在这里插入图片描述

2.2梯度下降法

我们在上边给出了最小二乘法求解线性回归的参数theta,实际python 的 numpy库就是使用的这种方法。

当然了，这需要我们的参数的维度不大，当维度大的时候，使用解析解就不适用了，这里讨论梯度下降算法。
2.2.2梯度下降法步骤：
初始化theta

沿着负梯度方向迭代，更新后的theta使得J(theta)更小。
在这里插入图片描述
其中α表示学习率
就是让theta沿着让J(theta)下降最快的方向移动。求一下梯度方向；

上面的结果是对一个样本求的，实际中的损失函数是

因此可以得到：

在这里插入图片描述
加上学习率α

预测车流量

利用最小二乘法预测隧道车流量

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

def calcAB(x,y):
    n = len(x)
    sumX,sumY,sumXY,sumXX =0,0,0,0
    for i in range(0,n):
        sumX  += x[i]
        sumY  += y[i]
        sumXX += x[i]*x[i]
        sumXY += x[i]*y[i]
    a = (n*sumXY -sumX*sumY)/(n*sumXX -sumX*sumX)
    b = (sumXX*sumY - sumX*sumXY)/(n*sumXX-sumX*sumX)
    return a,b,
Traffic_flow = pd.read_csv("Traffic_flow.csv")
xi = Traffic_flow.day
yi = Traffic_flow

最低0.47元/天解锁文章

AI视觉萌

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
利用线性回归预测隧道车流量

一、线性回归的定义回归是监督学习的一个重要问题，回归用于预测输入变量和输出变量之间的关系。回归模型是表示输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合：使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据。回归问题分为模型的学习和预测两个过程。基于给定的训练数据集构建一个模型，根据新的输入数据预测相应的输出。回归问题按照输入变量的个数可以分为一元回归和多元回归；按照输入...
复制链接

扫一扫

专栏目录