数据变换的几种形式

数据变换涉及数据规范化和连续属性离散化,旨在将数据调整为适合挖掘的形式。规范化方法包括最大-最小规范化、零-均值规范化和小数定标规范化。离散化则有等宽法、等频法和聚类方法。这些技术常用于将非正态分布数据转换为正态分布,以及将连续属性转化为分类属性。
摘要由CSDN通过智能技术生成

    数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。

    简单的函数变换包括平方、开方、取对数查分运算等,可以将不具有正态分布的数据变换成具有正态分布的数据,对于时间序列分析,有时简单的对数变换和差分运算就可以将非平稳序列转换成平稳序列。

 

数据规范化

    1、最大——最小规范化 :X *=(x-min)/(max-min)

      映射到 [0,1] 之间,若数据集中且某个数值太大,则规范化后各值都接近0,且相差不大

    2、零——均值规范化:X*=(x-mean)/ sigma

      目前用的最多的数据标准化方法

    3、小数定标规范化:X*=x /(10^k)

      通过移动属性值的小数位数,映射到 [-1,1] 之间,移动的小数位数取决于属性值绝对值的最大值

 

 1 #-*- coding: utf-8 -*-
 2 #数据规范
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值