特征工程小结
这一节主要记录学习 《特征工程入门和实践》 书籍的记录
特征工程是什么?
特征工程(feature engineering)是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。
特征工程包括什么?
1.特征理解:学习如何识别定量数据和定性数据。
2.特征增强:清洗和填充缺失值,最大化数据集的价值。
3.特征选择:通过统计方法选择一部分特征,以减少数据噪声。
4.特征构建:构建新的特征,探索特征间的联系。
5.特征转换:提取数据中的隐藏结构,用数学方法转换数据集、增强效果。
6.特征学习:利用深度学习的力量,以全新的视角看待数据,从而揭示新的问题,并予以解决。
特征理解:我的数据集里有什么?
1.结构化数据与非结构化数据;
2.定量数据与定性数据;
3.数据的4个等级:
定类等级(nominal level)
例如,血型(A、B、O型)、动物物种和人名。
定类等级是数据的第一个等级,其结构最弱。这个等级的数据只按名称分类;
不能执行任何定量数学操作,例如加法或除法。可以进行计数,如众数
属性:离散无序
描述性统计:频率/占比、众数
图表:条形图和饼图
定序等级(ordinal level)
例如:李克特量表(比如1~10的评分)、考试成绩等级(A、B、C、D).
定序等级等级继承了定类等级的所有属性,而且还有重要的附加属性,汇总如下:
可以计数、比较、排序,计算众数、中位数、百分位数
定序等级的数据可以自然排序。这意味者,可以认为列中某些数据比其他数据更好或更大
属性:有序类别比较
描述性统计:频率、众数、中位数、茎叶图
图形:条形图、饼图、茎叶图.
定距等级(interval level)
例如:摄氏度
在定距等级上可以进行加减,可以引入:算术平均数(均值)和标准差
描述性统计:频率、众数、中位数、均值、标准差
图形:条形图、饼图、茎叶图、散点图、直方图(直方图是条形图的“近亲”,用不同的桶包含不同的数据,对数据的频率进行可视化).
定比等级(ratio level)
例如:金钱、重量
定比等级拥有最高程度的控制和数学运算能力,不仅继承了定距的加减运算,而且有了一个"绝对零点"的概念,可以做乘除运算。
描述性统计:均值、标准差
图形:直方图、箱线图
4.探索性数据分析和数据可视化;
5.描述性统计;