特征工程学习资料
在实习过程中遇到关于特征选取的问题。
在之前学习机器学习的时候被这一块没有太多的重视,更多的放在了分类/回归算法的能力。
然后就找了一些资料来学习,分享一下!
主要
使用sklearn做单机特征工程
非常出色的博客,对于特征选取的基本要点都有提到
分的类非常棒!
并且关注在sklearn的使用上面
但是对原理讲的较少,愿意学习原理的可以看看后面的文章
使用sklearn优雅地进行数据挖掘
上面博客的第二章
关于并行、流水线、自动化调参和持久化的讲解非常棒!
干货:结合Scikit-learn介绍几种常用的特征选择方法
作者:Edwin Jarvis
实在是没有找到作者的原文链接,只能找了一篇译文
同样也是一篇同样非常好的文章
分类稍不同于第一篇文章,两篇可以一起看
关于特征工程入门中的一些基本知识(整理)
感谢该篇作者对于第一篇博客的原理上的扩充
有很多定义的解释
其他
这里是我在学习的时候遇到的一些原理上的问题,在此列出来一起学习
2.1.1 数据预处理->无量纲化->标准化
z-score 原理
z-score前提:特征值服从正态分布
当然如果不完全符合也可以使用此操作
标准化和归一化什么区别? - myazi的回答 - 知乎
在看到标准化的时候一直不理解标准化和归一化的区别
感谢上面知乎的回答
归一化:对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的。
标准化:对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。
个人感觉一个是不需要、舍弃可比性,一个是为了可比。
3.1.2 特征选择->Filter->相关系数法
如何通俗易懂地解释「协方差」与「相关系数」的概念? - GRAYLAMB的回答 - 知乎
先复习一下协方差和相关系数的概念
相关系数与P值基本概念
P值与α值的关系? - 花火同学的回答 - 知乎
3.1.3 特征选择->Filter->卡方检验
卡方检验原理及应用
做卡方检验即是选择自变量和因变量相关性高的特征
只不过是从样本频数的角度考虑,不同于相关系数法,从特征和标签的变化程度来考虑