数据正则化 python_Python数据科学：正则化方法

最新推荐文章于 2024-05-06 23:59:04 发布

sdmddx

最新推荐文章于 2024-05-06 23:59:04 发布

阅读量1k

点赞数

文章标签：数据正则化 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30562541/article/details/113719192

版权

接之前的线性回归文章，传送门如下。

上面这篇文章是利用方差膨胀因子，去诊断与减轻多重共线性对线性回归的影响。

需要人为介入(根据得到的方差膨胀值去判断)，耗费过多的时间。

于是便有了正则化方法的出现，通过收缩方法(正则化方法)进行回归。

正则化方法主要包括岭回归与LASSO回归。

/ 01 / 岭回归

岭回归通过人为加入的惩罚项(约束项)，对回归系数进行估计，为有偏估计。

有偏估计，允许估计有不大的偏度，以换取估计的误差显著减小，并在其残差平方和为最小的原则下估计回归系数。

通常岭回归方程中的R²会稍低于线性回归分析，但回归系数的显著性往往明显高于普通线性回归。

这里不对相应的理论知识进行细说，说实话小F也是晕乎乎...

所以选择先调包，看看效果是啥样的。

使用机器学习框架scikit-learn进行岭回归参数的选择(正则化系数)。

数据是书中的数据，已上传网盘，公众号回复「正则化」，即可获取。

scikit-learn当中的模型不会默认对数据标准化，必须手动执行。

标准化后的数据可以消除量纲，让每个变量的系数在一定意义下进行直接比较。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.linear_model import Ridge

from sklearn.linear_model import RidgeCV

from sklearn.preprocessing import StandardScaler

# 消除pandas输出省略号情况及换行情况

pd.set_option('display.max_columns', 500)

pd.set_option('display.width', 1000)

# 读取数据,skipinitialspace:忽略分隔符后的空白

df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)

# 获取信用卡有支出的行数据

exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 获取信用卡无支出的行数据,NaN

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据正则化 python_Python数据科学：正则化方法

接之前的线性回归文章，传送门如下。上面这篇文章是利用方差膨胀因子，去诊断与减轻多重共线性对线性回归的影响。需要人为介入(根据得到的方差膨胀值去判断)，耗费过多的时间。于是便有了正则化方法的出现，通过收缩方法(正则化方法)进行回归。正则化方法主要包括岭回归与LASSO回归。/ 01 / 岭回归岭回归通过人为加入的惩罚项(约束项)，对回归系数进行估计，为有偏估计。有偏估计，允许估计有不大的偏度，以换取...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。