【DataWhale-集成学习】Task02 回归问题

最新推荐文章于 2024-07-21 22:27:18 发布

LucyFang2020

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量129

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/LucyLuo2020/article/details/120378088

版权

笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章目录

1、什么是回归问题

回归问题是针对因变量是连续型变量的问题，比如：房价，体重等等。与之对立的是分类问题，分类问题是针对因变量是离散型变量的问题，如：是否存活，是否违约等等。

2、如何解决回归问题

首先，拿到数据需要确定属于什么性质类的问题，回归还是分类？
然后，探索性分析不同特征之间的特点，相关性等等。
接着，了解回归模型有哪些，以及他们之间的使用场景，优缺点等等。
最后，用回归模型建立模型。

3、代码示例

3.1 导入包及数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 
plt.style.use("ggplot")      
import seaborn as sns

from sklearn import datasets
boston = datasets.load_boston()     # 返回一个类似于字典的类
X = boston.data
y = boston.target
features = boston.feature_names
boston_data = pd.DataFrame(X,columns=features)
boston_data["Price"] = y
boston_data.head()

3.2 探索性分析

sns.scatterplot(boston_data['NOX'],boston_data['Price'],color="r",alpha=0.6)
plt.title("Price~NOX")
plt.show()

3.3 回归模型

3.3.1 线性回归

$\overset{y}{^} = f (w) = w T x$

from sklearn import linear_model      # 引入线性回归方法
lin_reg = linear_model.LinearRegression()       # 创建线性回归的类
lin_reg.fit(X,y)        # 输入特征X和因变量y进行训练
print("模型系数：",lin_reg.coef_)             # 输出模型的系数
print("模型得分：",lin_reg.score(X,y))    # 输出模型的决定系数R^2

3.3.2 多项式回归

$y_i = w_0 + w_1x_{i1} +...+w_px_{ip} + \epsilon_i$

from sklearn.preprocessing import PolynomialFeatures
X_arr = np.arange(6).reshape(3, 2)
print("原始X为：\n",X_arr)

poly = PolynomialFeatures(2)
print("2次转化X：\n",poly.fit_transform(X_arr))

poly = PolynomialFeatures(interaction_only=True)
print("2次转化X：\n",poly.fit_transform(X_arr))

3.3.3 回归树

$w_0 + \sum\limits_{j=1}^{p}w_jx^{(j)}$

from sklearn.tree import DecisionTreeRegressor    
reg_tree = DecisionTreeRegressor(criterion = "mse",min_samples_leaf = 5)
reg_tree.fit(X,y)
reg_tree.score(X,y)

3.3.4 支持向量机回归(SVR)

$f(x)=\sum_{i=1}^{N}\left(\widehat{\alpha}_{i}-\alpha_{i}\right) x_{i}^{T} x+b$

from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler     # 标准化数据
from sklearn.pipeline import make_pipeline   # 使用管道，把预处理和模型形成一个流程

reg_svr = make_pipeline(StandardScaler(), SVR(C=1.0, epsilon=0.2))
reg_svr.fit(X, y)
reg_svr.score(X,y)

3.4 模型建立与参数调整

boston = datasets.load_boston() 
X = boston.data
y = boston.target
features = boston.feature_names
pipe_SVR = make_pipeline(StandardScaler(),SVR())
score1 = cross_val_score(estimator=pipe_SVR,X = X,y = y,scoring = 'r2',cv = 10)
print("CV accuracy: %.3f +/- %.3f" % ((np.mean(score1)),np.std(score1)))

from sklearn.pipeline import Pipeline
pipe_svr = Pipeline([("StandardScaler",StandardScaler()),
                                                         ("svr",SVR())])
param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
param_grid = [{"svr__C":param_range,"svr__kernel":["linear"]},                              {"svr__C":param_range,"svr__gamma":param_range,"svr__kernel":["rbf"]}]
gs = GridSearchCV(estimator=pipe_svr,param_grid = param_grid,scoring = 'r2',cv = 10)       # 10折交叉验证
gs = gs.fit(X,y)
print("网格搜索最优得分：",gs.best_score_)
print("网格搜索最优参数组合：\n",gs.best_params_)

4、总结

回归问题和分类问题同时了解，具有对比性，理解起来更加深刻。在解决回归问题的时候要熟悉各种回归模型的具体形式和使用方法，根据模型的评估方法来确定最终模型。

LucyFang2020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【DataWhale-集成学习】Task02 回归问题

文章目录1、什么是回归问题2、如何解决回归问题3、代码示例3.1 导入包及数据3.2 探索性分析3.3 回归模型3.3.1 线性回归3.3.2 多项式回归3.3.3 回归树3.3.4 支持向量机回归(SVR)3.4 模型建立与参数调整4、总结1、什么是回归问题回归问题是针对因变量是连续型变量的问题，比如：房价，体重等等。与之对立的是分类问题，分类问题是针对因变量是离散型变量的问题，如：是否存活，是否违约等等。2、如何解决回归问题首先，拿到数据需要确定属于什么性质类的问题，回归还是分类？然后，探索
复制链接

扫一扫