离散化
原因:1、克服数据缺陷 2、某些算法要求 3、非线性数据映射
方法:等频=等深划分 (每个区间划分的数量一致) pd.pcut(x=...,bins=...)
等宽=等距 pd.cut(x=...,bins=...)
数值化
归一化 MinMaxScaler
将数据缩放到0~1之间,可观察单个数据在数据中占据的比例,便于对比数据间情况。
df['demo'] = \
MinMaxScaler().fit_transform(df['demo'].values.reshape(-1,1)).reshape(1,-1)[0] #归一化,df为一个DataFrame
标准化 StandardScaler --> 标准差为1,均值为0
df['demo'] = \
StandardScaler().fit_transform(df['demo'].values.reshape(-1,1)).reshape(1,-1)[0] #标准化