- 博客(2)
- 收藏
- 关注
转载 数据挖掘——无量纲化
在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结,试图指出他们的适用场景,并给出在Python中的相应调用方式。正文中每列代表一个 属性/特征,每行表示一个/条 样本。1.min-max归一化...
2019-03-25 20:13:23 9179
转载 偏度(skewness)和峰度(kurtosis)
偏度偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。Python代码实现方法:pandas的Series 数据结构可以直接调用skew()方法来查看df.iloc[...
2019-03-19 20:32:55 145347 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人