數據標准化處理方法

http://blog.csdn.net/memory513773348/article/details/8701559

在數據分析之前,我們通常需要先將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化也就是統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。

一、Min-max 標准化

    min-max標准化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標准化映射成在區間[0,1]中的值x',其公式為:

    新數據=(原數據-極小值)/(極大值-極小值)

    用svm對數據進行訓練前一般采用此方法對數據進行標准化。

二、z-score 標准化

    這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x'。

    z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。

    新數據=(原數據-均值)/標准差

    spss默認的標准化方法就是z-score標准化。

    用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。
    步驟如下:
    1.求出各變量(指標)的算術平均值(數學期望)xi和標准差si ;
    2.進行標准化處理:
      zij=(xij-xi)/si
      其中:zij為標准化後的變量值;xij為實際變量值。
    3.將逆指標前的正負號對調。
    標准化後的變量值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

三、Decimal scaling小數定標標准化

    這種方法通過移動數據的小數點位置來進行標准化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標准化到 x'的計算方法是:

    x'=x/(10*j)

    其中,j是滿足條件的最小整數。

    例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標准化,我們用1000(即,j=3)除以每個值,這樣,-986被規范化為-0.986。

    注意,標准化會對原始數據做出改變,因此需要保存所使用的標准化方法的參數,以便對後續的數據進行統一的標准化。

四、除了上面提到的數據標准化外還有對數Logistic模式、模糊量化模式等等:

    對數Logistic模式:新數據=1/(1+e^(-原數據))

    模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ]       X為原數據


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值