10、数据分析--数据降维

最新推荐文章于 2024-01-26 19:35:19 发布

T o r

最新推荐文章于 2024-01-26 19:35:19 发布

阅读量1.7k

点赞数 1

分类专栏：数据分析文章标签：机器学习 python 数据分析人工智能数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qwe863226687/article/details/115408172

版权

本文探讨了数据降维的重要性，特别是针对过拟合的解决方案。核心内容包括特征值分解，介绍了缺失值处理的不同策略，如直接删除、用统计值填充和预测模型填补。此外，讨论了二值化处理的原因和方法。数据降维的常见技术如SVD、PCA和PAC分解被详细解释，强调了奇异值在保留原始数据信息中的关键作用。

摘要由CSDN通过智能技术生成

数据降维不是正则化，虽然都是解决过拟合的方式

※数据降维的核心：特征值分解

知识补充：数据可以从大数据厂商购置或爬虫获取

fit在用升维，降维，训练等处理进行拟合是必要操作（这样才能得到实质的处理完的数据模型），transform是要把数据（新旧都可以，原来fit拟合的数据放进去就相当于提取出来，然后就可以观察了）放回到fit处理得到的模型里进行匹配转化来提取数据

数据信息处理：

缺失值填充的方式（缺失值表示NAN，表示不是一个数的意思，如果拟合的时候其中一次计算代入NAN，那么所得的预测值也不是一个数了）：

一、缺失值处理

1、直接删除有缺失的样本（虽然简单，但浪费资源）

2、用平均值、中值、分位数、众数、随机值等替代（也简单，但是给机器学习制造了噪声值，产生偏差）

特定情况可以使用这个方法，如果有些数占大多数的时候可以用众数，如果分布的方差比较小的时候就可以用平均值来填充，···············

class sklearn.preprocessing. Imputer (missing_values=‘NaN’, strategy=‘mean’,axis=0,verbose=0,copy=True)

preprocessing预处理库，missing_values缺失值的表达方式（这里默认是NAN），strategy处理模型的策略（这里默认是均值来处理），axis和numpy的axis一样（0columns表示以列的数据拿来处理（一般情况下数据的特征都是以列集成的），1rows表示以行的数据拿来处理）

strategy还有median中位数处理（取到中间有两个数的时候会选最大数值的），most_frequent众数处理······

3、用其他变量做预测模型来算出缺失变量（当其他变量和缺失变量无关的时候，预测结果无意义）

比如在数据中存在x1+x2=y的规律，x1未知那么可以用x2和y推得，但是真实情况下没有这些规律就不能用

4、最精确的做法，把变量映射到高维空间（通过升维来处理）

把缺失值设置成未知项来处理

二、二值化处理：

对于定量的数据根据给定的阈值，将其进行转换，如果大于阈值，那么赋值为1；否则赋值为0

线性模型数值多，权重值很难进行调整，模型表达复杂

比如学生好坏问题ÿ

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
10、数据分析--数据降维

数据降维不是正则化，虽然都是解决过拟合的方式※数据降维的核心：特征值分解知识补充：数据可以从大数据厂商购置或爬虫获取 fit在用升维，降维，训练等处理进行拟合是必要操作（这样才能得到实质的处理完的数据模型），transform是要把数据（新旧都可以，原来fit拟合的数据放进去就相当于提取出来，然后就可以观察了）放回到fit处理得到的模型里进行匹配转化来提取数据数据信息处理：缺失值填充的方式（缺失值表示NAN，表示不是一个数的意思，如果拟合的时候其中一次计算代入NAN，那么所得的预测
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

T o r 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。