数据降维不是正则化,虽然都是解决过拟合的方式
※数据降维的核心:特征值分解
知识补充:数据可以从大数据厂商购置或爬虫获取
fit在用升维,降维,训练等处理进行拟合是必要操作(这样才能得到实质的处理完的数据模型),transform是要把数据(新旧都可以,原来fit拟合的数据放进去就相当于提取出来,然后就可以观察了)放回到fit处理得到的模型里进行匹配转化来提取数据
数据信息处理:
缺失值填充的方式(缺失值表示NAN,表示不是一个数的意思,如果拟合的时候其中一次计算代入NAN,那么所得的预测值也不是一个数了):
一、缺失值处理
1、直接删除有缺失的样本(虽然简单,但浪费资源)
2、用平均值、中值、分位数、众数、随机值等替代(也简单,但是给机器学习制造了噪声值,产生偏差)
特定情况可以使用这个方法,如果有些数占大多数的时候可以用众数,如果分布的方差比较小的时候就可以用平均值来填充,···············
class sklearn.preprocessing. Imputer (missing_values=‘NaN’, strategy=‘mean’,axis=0,verbose=0,copy=True)
preprocessing预处理库,missing_values缺失值的表达方式(这里默认是NAN),strategy处理模型的策略(这里默认是均值来处理),axis和numpy的axis一样(0columns表示以列的数据拿来处理(一般情况下数据的特征都是以列集成的),1rows表示以行的数据拿来处理)
strategy还有median中位数处理(取到中间有两个数的时候会选最大数值的),most_frequent众数处理······
3、用其他变量做预测模型来算出缺失变量(当其他变量和缺失变量无关的时候,预测结果无意义)
比如在数据中存在x1+x2=y的规律,x1未知那么可以用x2和y推得,但是真实情况下没有这些规律就不能用
4、最精确的做法,把变量映射到高维空间(通过升维来处理)
把缺失值设置成未知项来处理
二、二值化处理:
对于定量的数据根据给定的阈值,将其进行转换,如果大于阈值,那么赋值为1;否则赋值为0
线性模型数值多,权重值很难进行调整,模型表达复杂
比如学生好坏问题ÿ