第八章变量选择与正则化 - 糖尿病人数据集

最新推荐文章于 2023-09-18 00:56:06 发布

喝醉酒的小白

最新推荐文章于 2023-09-18 00:56:06 发布

阅读量5.2k

点赞数 4

分类专栏：应用回归分析-俞昊东

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/104825716

版权

应用回归分析-俞昊东专栏收录该内容

13 篇文章 6 订阅

订阅专栏

糖尿病人数据集

数据集介绍

from sklearn import datasets

diabetes = datasets.load_diabetes()  
pd.DataFrame(diabetes.target).head()

在这里插入图片描述

pd.DataFrame(diabetes.data).head()

在这里插入图片描述

diabetes.feature_names

在这里插入图片描述

print(diabetes.DESCR)

在这里插入图片描述

数据调整

0 载入库&加载数据

import numpy as np
import pandas as pd	
from sklearn.linear_model import Lasso, Ridge, ElasticNet

#导入数据
df = pd.read_csv('Regression/Regression8/diabetes.csv')
features = list(df.columns)
features.remove('y')
labels = ['y']

df.sample(n=5)

在这里插入图片描述

df.info()

在这里插入图片描述

1 用lasso求解

lamb = 0.5 #参数
lasso_reg = Lasso(alpha=lamb)
#对10个原始自变量做回归
lasso_reg.fit(df[features[1:11]], df[labels])

print('截距\n', lasso_reg.intercept_)
print('自变量系数\n', lasso_reg.coef_)

在这里插入图片描述

仅4个变量不为0
稀疏性非常强
变量筛选效果好

2 岭回归

lamb = 0.1 #参数
Ridge_reg = Ridge(alpha=lamb)
Ridge_reg.fit(df[features[1:11]], df[labels])

print('截距\n', Ridge_reg.intercept_)
print('自变量系数\n', Ridge_reg.coef_)

在这里插入图片描述

全部为非0项
只具有压缩功能
不具有变量选择功能

3 引入全部特征

lamb = 0.1
lasso_reg2 = Lasso(alpha=lamb)
lasso_reg2.fit(df[features], df[labels])

print('截距\n', lasso_reg2.intercept_)
print('自变量系数\n', lasso_reg2.coef_)

在这里插入图片描述

非0元个数21
0元个数43
大部分变量系数为0
一次项非0元较多
二次项非0元较少

求numpy.ndarray非0个数

4 弹性网络方法

lamb=0.1
ElasticNet_reg = ElasticNet(alpha=lamb, l1_ratio=0.95)
ElasticNet_reg.fit(df[features], df[labels])

print('截距\n', ElasticNet_reg.intercept_)
print('自变量系数\n', ElasticNet_reg.coef_.T)

在这里插入图片描述

非0元个数38
0元个数26
非0元素个数较为折中

5 超参数选择

在这里插入图片描述

from sklearn.linear_model import LassoCV,RidgeCV,ElasticNetCV

lasso_reg = LassoCV(cv=20).fit(df[features], df[labels])    
print('超参数\n', lasso_reg.alpha_)

在这里插入图片描述