小瓜讲数据分析——数据变换

0 数据变换的应用场景

数据变换是数据预处理的一步,主要是为了使数据变得更容易理解或者更容易获得简单的特性或者统一数据量纲。

0.1 数据变换的内容

数据变换按照不同的目的,可以分以下几个方案:

  1. 函数变换
  2. 数据标准化(归一化)
  3. 离散化
1.1 函数变换

函数变换法主要目的:

  1. 为了更简单的特性
  2. 为了更好的分析数据特性
  3. 为了更简单的操作
1.2 几种函数变换方案

对数变换
对于指数级急剧变化特点的数据集,进行对数变换能够将其变换成线性变化的数据集,而且能够压缩数据范围,数据可视化效果更好。
X l o g = l o g ( X ) X_{log} = log(X) Xlog=log(X)

小波变换
主要的一种信号分析的手段

2.1 数据标准化(归一化)

对于不同指标的数据可能数值间差别很大,为了更好的开展数据分析工作,一般需要进行数据归一化,将他们转化到统一的量纲。

2.2 几种标准化方案

max-min标准化
可以将数据转换到 [ 0 , 1 ] [0,1] [0,1]范围内,但是由于采用了数据集的数据特征,所以需要再标准化前做好异常值剔除。
X s c a l e = X − m i n ( X ) m a x ( X ) − m i n ( x ) X_{scale} = \frac{X-min(X)}{max(X)-min(x)} Xscale=max(X)min(x)Xmin(X)

Z-Score变换
通常将具有正态分布特点的变换成标准正态分布,方便进一步分析。
X z − s c o r e = X − X ˉ σ X_{z-score} =\frac{X-\bar{X}}{\sigma} Xzscore=σXXˉ

小数定标标准化
这种方法通过移动数据的小数点位置来进行标准化。
X ∗ = X 1 0 j , j = l o g 10 m a x ( X ) X^*=\frac{X}{10^j}\quad, j=log_{10}max(X) X=10jX,j=log10max(X)

3.1 离散化

将连续属性离散化成若干组能够满足数据挖掘的要求,主要的方法有以下几种:

  1. 等宽法:将数据填入等分的区间,类似频率分布
  2. 等频法:将数据按照百分比填入不同区间
  3. 基于聚类方法

文章导引列表:
机器学习

  1. 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
  2. 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
  3. 小瓜讲机器学习——分类算法(三)朴素贝叶斯法(naive Bayes)
  4. 待续

数据分析

  1. 小呆学数据分析——使用pandas中的merge函数进行数据集合并
  2. 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
  3. 小呆学数据分析——pandas中的层次化索引
  4. 小呆学数据分析——使用pandas的pivot进行数据重塑
  5. 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
  6. 小呆学数据分析——缺失值处理(一)
  7. 小呆学数据分析——异常值判定与处理(一)
  8. 小瓜讲数据分析——数据清洗

数据可视化

  1. 小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
  2. 小瓜讲matplotlib高级篇——坐标轴设置(坐标轴居中、坐标轴箭头、刻度设置、标识设置)
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力的骆驼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值