线性

这篇博客探讨了线性回归分析前的数据要求和处理,包括对数变换、数据切割,以及顺序和分类数据的哑元化。还介绍了异常值处理、缺失值填充策略,如众数、KNN和模型预测。接着,讲解了特征选择的方法,如直接法、绘图分析和单因素方差分析。最后,阐述了回归诊断、多重共线性检测以及解决办法,并提到了模型评估指标。
摘要由CSDN通过智能技术生成

#数据要求
Y 正态
1.对数变换
2.数据切割

#数据处理
顺序数据直接数值化:有条件可以做哑元化

分类数据哑元化–虚拟化–onehot (m个, m-1个)
如果方程有常数项 哑元化 m-1个
如果方程没有常数项 哑元化 m个

衍生变量:

异常值:
离散型: 根据业务定
连续型: 3倍标准差,1.5倍IQR, DBScan密度聚类
处理:删除,作为缺失值,连续型异常值特多————离散化

缺失值:
离散型: 众数 自成一类(无),上下条数据的值(相关变量排序),填充KNN数据,填充模型预测的值

  连续型:均值 中位数 固定值,上下条数据的值(相关变量排序),插值得到的数据(序列.interpolate()),填充KNN数据,填充模型预测的值

#特征选择
1.直接法
离散特征:一种取值占比太大(90%),不参与建模
连续特征:方差或标准差太小

2.绘图
离散数据 柱图(x为离散值,y为因变量的中位)
连续数据 散点图(x为连续数据, y为因变量)

3 单元(单变量)法
因变量为连续型(单价)
相关系数, 单因素方差分析
from sklearn.feature_selection import f_classif HO: mu1 = mu2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值