基于数据类型的数据预pre-processing

只是自己的复习笔记,没打算让别人看懂

我知道的数据类型:

1.连续或离散型型数值

2.排序型或分类型

3.时间和空间坐标

4.文本型(暂时不管)

数据浅浅的可视化:

今天浅浅学了一招

dataset[].hist(figsize=()),能画出柱状图

数据处理方式:

我们一个一个来谈

数值型:

标准化:Minmaxscaler[0,1] standardscaler maxabsscaler[0,1]

正则化:normalizer(norm="L1"or"L2")

数据的二值化:Binarizer(threshold)

多值化:scipy.statas.rankdata(不如iloc编函数,找不来)

多项式:poly = PolynomialFeatures(2)

转换为6个特征,比如将两个特征 (X_1, X_2),它的平方展开式便转换成5个特征(1, X_1, X_2, X_1^2, X_1X_2, X_2^2).

特征创建:如果有房子的总价格与面积,我们可以求得房价。

自己iloc,loc慢慢操作

什么情况下(不)需要归一化?

需要: 基于参数的模型或基于距离的模型,都是要进行特征的归一化。

不需要:基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。

排序型,分类型:

onehotcoder sklearn有函数,个人觉得不如pandas的痛快(get_dummies)

onehotencoder    还可以groupby   再增加变量数量与相互关系

时间类型:【Pandas】时间数据处理_胡桃的胡的博客-CSDN博客_pandas 处理时间

参考这位大佬的

空间类型:

自己iloc,loc好好搞

数据缺失的填补:

 sklearn:

imp = Imputer(missing_values='NaN'or'0', strategy='mean', axis=0)

imp.fit             imp.tranform()

pandas:

df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)扔掉整个行列

df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)   value和method不同时出现

df.isnull()   df.isna()   判断是不是缺失值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值