【FE】特征选择方法

最新推荐文章于 2024-09-13 11:18:00 发布

dzzxjl

最新推荐文章于 2024-09-13 11:18:00 发布

阅读量473

点赞数

分类专栏： # 特征工程文章标签：机器学习

本站点用作笔记使用，如有侵权，请联系我进行删除，谢谢

本文链接：https://blog.csdn.net/dzzxjl/article/details/122049734

版权

特征工程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

皮尔逊系数

在统计学当中,皮尔逊相关性系数被广泛应用于测量2个变量 X、Y 的相关程度，皮尔逊相关性系数的值在(-1.0,1.0),绝对值越大,则2个变量间的相关性则越强。

卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。

其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方值越大，标识两个变量之间的关联性越大，越相关，即是越不独立。

def transFeature(data, category):
"""
根据传入的分段区间，将每星期工作时间转换为定量变量

参数
----
data : DataFrame，建模数据

category : list，分段区间
"""
labels = ["{0}-{1}".format(category[i], category[i+1]) for i in range(len(category) - 1)]
data["hours_per_week_group"] = pd.cut(data["hours_per_week"],
category, include_lowest=True, labels=labels)
return data


def getCategory(data):
"""
基于卡方检验，得到每星期工作时间的“最优”分段
"""
interval = [data["hours_per_week"].min(), data["hours_per_week"].max()]
_category = doDivide(data, interval)
s = set()
for i in _category:
s = s.union(set(i))
category = list(s)
category.sort()
return category


def doDivide(data, interval):
"""
使用贪心算法，得到“最优”的分段
"""
category = []
pValue, chi2, index = divideData(data, interval[0], interval[1])
if chi2 < 15:
category.append(interval)
else:
category += doDivide(data, [interval[0], index])
category += doDivide(data, [index, interval[1]])
return category


def divideData(data, minValue, maxValue):
"""
遍历所有可能的分段，返回卡方统计量最高的分段
"""
maxChi2 = 0
index = -1
maxPValue = 0
for i in range(minValue+1, maxValue):
category = pd.cut(data["hours_per_week"], [minValue, i, maxValue],
include_lowest=True)
cross = pd.crosstab(data["label"], category)
chi2, pValue, _, _ = scs.chi2_contingency(cross)
if chi2 > maxChi2:
maxPValue = pValue
maxChi2 = chi2
index = i
return maxPValue, maxChi2, index