13. 岭回归

最新推荐文章于 2023-11-27 16:20:31 发布

我成为一只小羊

最新推荐文章于 2023-11-27 16:20:31 发布

阅读量425

点赞数

文章标签： sklearn Python 机器学习

本文链接：https://blog.csdn.net/Exupery_/article/details/77150269

版权

文章目录

岭回归
- sklearn中的岭回归
交通流量预测
- 数据
- 代码

岭回归

岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法。是一种改良的最小二乘估计法，对某些数据的拟合要强于最小二乘法。
对于一般地线性回归问题，参数的求解采用的是最小二乘法，其目标函数如下：
$argmin||\mathbf{Xw-y}||^2$
参数 $\mathbf{w}$ 的求解，可以使用：
$\mathbf{w}=(\mathbf{X^TX})^{-1}\mathbf{X^Ty}$
对于矩阵 $\mathbf{X}$ ，若某些列线性相关性较大（即训练样本中某些属性相性相关），就会导致 $\mathbf{X^TX}$ 的值接近0，在计算 $(\mathbf{X^TX})^{-1}$ 时就会出现不稳定性。
岭回归的优化目标：
$argmin||\mathbf{Xw-y}||^2+\alpha ||\mathbf{w}||^2$
对应的矩阵求解方法：
$\mathbf{w}=(\mathbf{X^TX}+\alpha\mathbf{I})^{-1}\mathbf{X^Ty}$

sklearn中的岭回归

sklearn.linear_model.Ridge
主要参数：

参数	说明
alpha	正则化因子，对应于损失函数中的 $\alpha$
fit_intercept	是否计算截距
solver	设置计算参数的方法，可选参数‘auto’、‘svd’、‘sag’等。

交通流量预测

数据

这里写图片描述

HR：一天中的第几个小时（0-23）
WEEK_DAY：一周中的第几天（0-6）
DAY_OF_YEAR：一年中的第几天（1-365）
WEEK_OF_YEAR：一年中的第几周（1-53）
TRAFFIC_COUNT：交通流量

代码

import numpy as np
import matplotlib.pyplot as plt
# 通过sklearn.liner_model加载岭回归方法
from sklearn.linear_model import Ridge
# 交叉验证模块
from sklearn import cross_validation
# 多项式模块
from sklearn.preprocessing import PolynomialFeatures

'''数据加载'''
# 从上向下忽略一行（第一行），以逗号作为分隔。
data = np.genfromtxt('Data/岭回归.csv', delimiter=',', skip_header=1)
# 不要第一列（ID）
data = data[:, 1:]
# plt.plot(data[:, 4])
# plt.show()

'''数据处理'''
# X用于保存0-3维数据，即属性
X = data[:, :4]
# y用于保存第4维数据，即车流量
y = data[:, 4]
# 用于创建最高次数6次方的的多项式特征，多次试验后决定采用6次
poly = PolynomialFeatures(6)
# X为创建的多项式特征
X = poly.fit_transform(X)
# 将所有数据划分为训练集和测试集，test_size表示测试集的比例，random_state是随机数种子
train_set_X, test_set_X, train_set_y, test_set_y = cross_validation.train_test_split(X, y,
                                                                                     test_size=0.3, random_state=0)

'''创建回归器，并进行训练'''
# 创建岭回归实例
clf = Ridge(alpha=1.0, fit_intercept=True)
# 调用fit函数使用训练集训练回归器
clf.fit(train_set_X,train_set_y)
# 利用测试集计算回归曲线的拟合优度，clf.score返回值为0.7375
# 拟合优度，用于评价拟合好坏，最大为1，无最小值，当对所有输入都输出同一个值时，拟合优度为0。
print('拟合优度：', clf.score(test_set_X, test_set_y))

'''画出拟合曲线'''
# 画一段200到300范围内的拟合曲线
start = 200
end = 300
# 调用predict函数拟合值
y_pre = clf.predict(X)
# 画图
time = np.arange(start, end)
plt.plot(time, y[start:end], 'blue', label="real")
plt.plot(time, y_pre[start:end], 'red', label='predict')
# 设置图例的位置
plt.legend(loc='upper left')
plt.show()

这里写图片描述

我成为一只小羊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
13. 岭回归

岭回归sklearn中的岭回归交通流量预测数据代码岭回归岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法。是一种改良的最小二乘估计法，对某些数据的拟合要强于最小二乘法。对于一般地线性回归问题，参数的求解采用的是最小二乘法，其目标函数如下： argmin||Xw−y||2argmin||Xw−y||2argmin||\...
复制链接

扫一扫