10、数据分析--数据降维

数据降维不是正则化,虽然都是解决过拟合的方式

※数据降维的核心:特征值分解

知识补充:数据可以从大数据厂商购置或爬虫获取

​ fit在用升维,降维,训练等处理进行拟合是必要操作(这样才能得到实质的处理完的数据模型),transform是要把数据(新旧都可以,原来fit拟合的数据放进去就相当于提取出来,然后就可以观察了)放回到fit处理得到的模型里进行匹配转化来提取数据

数据信息处理:

​ 缺失值填充的方式(缺失值表示NAN,表示不是一个数的意思,如果拟合的时候其中一次计算代入NAN,那么所得的预测值也不是一个数了):

一、缺失值处理

1、直接删除有缺失的样本(虽然简单,但浪费资源)

2、用平均值、中值、分位数、众数、随机值等替代(也简单,但是给机器学习制造了噪声值,产生偏差)

​ 特定情况可以使用这个方法,如果有些数占大多数的时候可以用众数,如果分布的方差比较小的时候就可以用平均值来填充,···············

​ class sklearn.preprocessing. Imputer (missing_values=‘NaN’, strategy=‘mean’,axis=0,verbose=0,copy=True)

​ preprocessing预处理库,missing_values缺失值的表达方式(这里默认是NAN),strategy处理模型的策略(这里默认是均值来处理),axis和numpy的axis一样(0columns表示以列的数据拿来处理(一般情况下数据的特征都是以列集成的),1rows表示以行的数据拿来处理)

​ strategy还有median中位数处理(取到中间有两个数的时候会选最大数值的),most_frequent众数处理······

3、用其他变量做预测模型来算出缺失变量(当其他变量和缺失变量无关的时候,预测结果无意义)

​ 比如在数据中存在x1+x2=y的规律,x1未知那么可以用x2和y推得,但是真实情况下没有这些规律就不能用

4、最精确的做法,把变量映射到高维空间(通过升维来处理)

​ 把缺失值设置成未知项来处理

二、二值化处理:

​ 对于定量的数据根据给定的阈值,将其进行转换,如果大于阈值,那么赋值为1;否则赋值为0

​ 线性模型数值多,权重值很难进行调整,模型表达复杂

​ 比如学生好坏问题ÿ

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

T o r

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值