![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python特征工程
文章平均质量分 97
Python特征工程
几度春风里
几度春风里,看花谢花开,含羞的程序员,惹人爱!
展开
-
Python特征工程 — 1.4 特征归一化方法详解
参考文章1.2节(原创 2024-07-03 18:16:51 · 1093 阅读 · 1 评论 -
Python特征工程 — 1.3 对数与指数变换
Box-Cox变换是一种在统计建模中常用的数据变换方法,由George E.P. Box和David Cox在1964年提出,用于处理连续的、正值的、偏斜分布的数据,以便它们更符合正态分布的要求。指数变换通常用于处理具有极端值或非常不均匀分布的数据,它将原始数据的每个值转换为该值的指数函数,指数变换可以放大较小的值而压缩较大的值,有助于减少极端值的影响。在原始数据的直方图上使用对数刻度,可以清晰地看到数据的重尾特性,即直方图的右侧有一个长尾,对数变换后的数据直方图可能看起来更加紧凑,极端大值的影响被减少。原创 2024-07-03 15:42:42 · 700 阅读 · 0 评论 -
Python特征工程 — 1.2 特征分箱
特征分箱(Feature Binning)是一种数据预处理技术,主要用于将连续特征(或密集离散特征)转换为离散特征,可以提高模型的性能。目的:特征分箱的目的是将连续(或密集离散)变量的值范围划分为多个区间(或“箱子”),并将这些区间映射到离散的类别或标签上。原因:连续(或密集离散)变量可能包含非线性关系或复杂的模式,这些模式对于某些机器学习算法来说可能难以捕捉。通过分箱,我们可以将这些复杂的连续变量(或密集离散)简化为更易于模型处理的离散变量。原创 2024-07-02 21:12:53 · 1278 阅读 · 0 评论 -
Python特征工程 — 1.1 特征二值化
特征二值化是一种数据预处理技术,特别是在处理分类问题时将特征值转换为二进制值,通常为0和1。这种转换可以简化模型的复杂性,提高计算效率,并在某些情况下提高模型的性能。阈值法:选择一个阈值,将所有大于或等于阈值的特征值设置为1,小于阈值的设置为0。中位数法:使用特征值的中位数作为分界点,将大于或等于中位数的值设置为1,小于中位数的值设置为0。众数法:将特征值中出现次数最多的值作为1,其他值设置为0。标准差法:如果特征值的绝对值大于其标准差的某个倍数,则将其设置为1,否则为0。原创 2024-06-28 23:29:12 · 875 阅读 · 0 评论