只是自己的复习笔记,没打算让别人看懂
我知道的数据类型:
1.连续或离散型型数值
2.排序型或分类型
3.时间和空间坐标
4.文本型(暂时不管)
数据浅浅的可视化:
今天浅浅学了一招
dataset[].hist(figsize=()),能画出柱状图
数据处理方式:
我们一个一个来谈
数值型:
标准化:Minmaxscaler[0,1] standardscaler maxabsscaler[0,1]
正则化:normalizer(norm="L1"or"L2")
数据的二值化:Binarizer(threshold)
多值化:scipy.statas.rankdata(不如iloc编函数,找不来)
多项式:poly = PolynomialFeatures(2)
转换为6个特征,比如将两个特征 (X_1, X_2),它的平方展开式便转换成5个特征(1, X_1, X_2, X_1^2, X_1X_2, X_2^2).
特征创建:如果有房子的总价格与面积,我们可以求得房价。
自己iloc,loc慢慢操作
什么情况下(不)需要归一化?
需要: 基于参数的模型或基于距离的模型,都是要进行特征的归一化。
不需要:基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。
排序型,分类型:
onehotcoder sklearn有函数,个人觉得不如pandas的痛快(get_dummies)
onehotencoder 还可以groupby 再增加变量数量与相互关系
时间类型:【Pandas】时间数据处理_胡桃的胡的博客-CSDN博客_pandas 处理时间
参考这位大佬的
空间类型:
自己iloc,loc好好搞
数据缺失的填补:
sklearn:
imp = Imputer(missing_values='NaN'or'0', strategy='mean', axis=0)
imp.fit imp.tranform()
pandas:
df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)扔掉整个行列
df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) value和method不同时出现
df.isnull() df.isna() 判断是不是缺失值