第1章 特征工程简介
1.1-1.2主要讲的是特征工程重要而且不容易做还浪费时间。
1.3 特征工程是什么?
将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。主要包含以下内容:
(1)转换数据的过程
(2)特征
(3)更好地表示潜在问题
(4)提高机器学习性能:通常大家说特征的选择决定模型的上线。
1.3.1 数据和机器学习的基础知识
有监督
无监督
因为很熟悉,所以这一块略过。
1.4 机器学习算法和特征工程的评估
属性与特征的区别:所有数据字段可以理解为属性,但是只有对建模有益的才叫特征,某些属性对于机器学习不一定有益,甚至有害。
特征工程的评估就是依靠机器学习算法的性能评估,主流的机器学习一般有数十种公认的指标。
无监督学习:一般最主流用轮廓系数。
注: 有时候特征工程做好之后,提升的可能不是算法的准确率,而且算法的其它性能指标,这时候也可以说特征工程是有效的。
1.5 特征理解:我的数据里面有什么
包括以下几个方面:
(1)结构化数据与非结构化数据
现阶段我的理解
例如数据是数值型还是Categorical 型。 如果是Categorical 型 又可以分为ordinal与norminal
(2)数据的4个等级
(3)识别数据的缺失值
(4)探索性数据分析
现阶段我的理解
这一块我觉得可以贯穿整个数据分析,一般通过这一步可以做很多需求。
(5)描述性统计
(6)数据可视化
1.6 特征增强:清洗数据
(1)对非结构化数据进行结构化。
(2)缺失值填充
(3)数据归一化
a. 标准化
b. 极差法
c. L1
和L2
正则化
注:这一步并不删除或者插入新的属性。
1.7 特征选择:对坏属性说不
(1)相关系数
(2)识别并移除多重共线性
(3)卡方检验
(4)方差分析
(5)理解p值
(6)迭代特征选择
(7)用机器学习测量熵和信息增益
1.8 特征构建:能生成新特征吗
我的理解
比如评价驾驶风格的时候,根据速度算出加速度作为特征。
1.9 特征转换:数学显神通
现阶段理解:PCA
这种的
1.10 特征学习:以AI促AI
现阶段理解:神经网络这种。
1.11 总结
上面的内容具体部分会在下面每一章进行详细的讲解,本人看完第一章最大的收获就是对特征工程有一个具体流程的概念,每一个步骤都做什么,虽然以前也用到了其中的一些方法,但是感觉不系统。通过读第一章感觉条理性变强了。