機器學習 - 特徵工程 Feature Engineering

Feature Engineering

1 Logarithm transformation(對數轉換) - log(x)

使用好處

  1. 穩定變異性: 在許多數據集中,變異性隨著平均值增加而增加。對數變換可以穩定變異性,使數據更具有恆定的變異性(同方差性)。

  2. 正態化分佈: 數據常常表現出偏態,即數據分佈不對稱。對數變換可以幫助正態化分佈,使其更接近正態分佈。

  3. 處理異常值: 大數值或異常值可能會對分析結果產生不成比例的影響。對數變換可以減少大數值的影響,使數據對異常值更具魯棒性。

  4. 線性化關係: 對數變換可以幫助線性化變數之間的關係,這對於線性回歸模型非常有用。

以下是一些對數變換不適用的情況:

  1. 含有零或負值的數據
    對數變換不能直接應用於零或負值,因為對數函數在這些點上是未定義的。如果數據集中有零或負值,需要進行特殊處理,例如加一個常數,但這可能會改變數據的特性和解釋。

  2. 資料分佈非常接近正態分佈
    如果數據已經接近正態分佈,應用對數變換可能會使數據偏離正態分佈,反而適得其反。在這種情況下,對數變換並不能帶來明顯的好處,甚至可能會增加複雜性。

  3. 數據的測量單位為負數或有物理意義上的負值
    如果數據代表物理量且有負值,對數變換會導致數據失去實際意義。例如,溫度可以有負值,對這類數據應用對數變換是不合適的

  4. 數據存在大量小數值
    對於非常小的數值,對數變換會將其轉換成很大的負數,這可能導致數據分佈不均勻,並且難以解釋。在這種情況下,可能需要考慮其他變換或預處理方法。

2 Reciprocal transformation(倒數轉換) - 1 / x

數據具有明顯的正偏態且有很大異常值,0無法轉換

使用好處

  1. 減少偏態: 當數據具有正偏態(即右偏)時,倒數變換可以使數據的分佈更接近正態分佈。
  2. 處理異常值: 倒數變換可以縮小大數值的影響,使異常值的影響減小。

3 Square root transformation(平方根轉換) - sqrt(x)

數據具有正偏態,且偏態不是非常嚴重

使用好處

  1. 減少正偏態
  2. 減少異常值的影響
注意事項:
  1. 非負數據: 平方根變換只適用於非負數據(即數據值必須大於或等於零),因為平方根函數在負數上是未定義的。
  2. 適用場合: 平方根變換適用於正偏態數據、計數資料和變異性隨平均值增加而增加的數據。

4 Exponential transformation(指數轉換) - exp(x)

  1. 降低右偏態(正偏態)
    當數據呈現右偏態(即數據的右尾較長)時,指數轉換可以用來拉伸右尾,使數據分佈更加對稱。這對於某些統計分析和機器學習模型(如線性回歸)的要求很有幫助,因為這些模型通常假設數據呈現對稱分佈。

  2. 平滑數據
    指數轉換可以平滑數據,減少數據中的極端值的影響。這對於某些時間序列數據或者具有高變異性的數據來說特別有用,可以使模型更加穩健。

  3. 使數據更適合線性建模
    在某些情況下,指數轉換可以使非線性關係更接近線性關係。這對於線性建模(如線性回歸)來說可能是有益的,因為它可以使模型更容易擬合數據。

5 Yeo-Johnson transformation

轉換的主要目的之一是將數據轉換為更接近常態分佈的形式
在这里插入图片描述

好處:

  1. 靈活性: Yeo-Johnson轉換相對於Box-Cox轉換更加靈活,因為它不僅可以處理正數,還可以處理包括零和負數在內的數據。

  2. 適用性: Yeo-Johnson轉換適用於各種不同的數據分佈和數據類型,可以處理非常態分佈的數據,並將其轉換為更接近常態分佈的形式。

  3. 優化參數: Yeo-Johnson轉換的參數 𝜆 可以通過最大似然估計(MLE)或其他優化方法來自動選擇,從而使轉換後的數據最符合分析需求。

  4. 保持解釋性: 轉換後的數據仍然具有解釋性,因為轉換過程中保留了原始數據的一部分特徵和信息。

注意事項:

  1. 數據分佈: 雖然Yeo-Johnson轉換可以處理各種數據分佈,但在某些情況下,特定的數據分佈可能導致轉換後的結果不理想。例如,如果數據具有極端的峰值或厚尾分佈,可能需要進一步的評估和處理。

  2. 極端值: Yeo-Johnson轉換對極端值較為敏感,因此在應用轉換時需要特別注意極端值的處理,以避免其對轉換結果造成過大的影響。

  3. 數據具有特殊結構: 如果數據具有特殊的結構或模式,如週期性、季節性或非線性趨勢,Yeo-Johnson轉換可能無法有效地處理這些結構。在這種情況下,可能需要使用其他方法來處理這些特殊結構,或者需要先對數據進行相應的預處理。

6 Box-Cox transformation

  1. 常態化數據: Box-Cox轉換可以將原始數據轉換為更接近常態分佈的形式。常態分佈的數據更容易進行統計分析和建模,並且可以使用許多基於常態分佈假設的統計方法。

  2. 靈活性: Box-Cox轉換具有一個參數 𝜆,可以控制轉換的形式。這意味著可以根據數據的特性選擇最適合的轉換形式,從而使得轉換後的數據更符合分析需求。

  3. 自動選擇參數: 可以通過最大似然估計(MLE)或其他方法自動選擇最適合的參數值 𝜆。這使得Box-Cox轉換在應用時更加方便,無需手動調節參數。

注意事項:

  1. 數據必須為正數: Box-Cox轉換要求原始數據必須為正數,否則無法進行轉換。這限制了其在處理包含零或負數的數據時的應用。

  2. 對極端值敏感: Box-Cox轉換對極端值較為敏感,當數據中存在極端值時,可能會對轉換後的結果產生影響。在這種情況下,可能需要先處理極端值,或者選擇其他方法來處理數據。

  3. 不適用於所有分佈: Box-Cox轉換假設數據服從幂率分佈,並且僅適用於一些特定的分佈。如果數據的分佈與幂率分佈不匹配,則Box-Cox轉換的效果可能會變差。

偏態的嚴重程度

  1. 檢查偏態的統計值
    偏態的絕對值通常用於量化偏態的程度。一般來說:
    當偏態絕對值在 [0,0.5] 範圍內時,可以認為數據分佈基本上是對稱的。
    當偏態絕對值在 (0.5,1] 範圍內時,可以認為數據分佈存在輕度偏斜。
    當偏態絕對值在 (1,2] 範圍內時,可以認為數據分佈存在中度偏斜。
    當偏態絕對值超過 2 時,可以認為數據分佈存在重度偏斜。
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值