特征工程入门与实践读书笔记——第一章

第1章 特征工程简介

1.1-1.2主要讲的是特征工程重要而且不容易做还浪费时间。

1.3 特征工程是什么?

将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。主要包含以下内容:

(1)转换数据的过程

(2)特征

(3)更好地表示潜在问题

(4)提高机器学习性能:通常大家说特征的选择决定模型的上线。

1.3.1 数据和机器学习的基础知识

有监督

无监督

因为很熟悉,所以这一块略过。

1.4 机器学习算法和特征工程的评估

属性与特征的区别:所有数据字段可以理解为属性,但是只有对建模有益的才叫特征,某些属性对于机器学习不一定有益,甚至有害。

特征工程的评估就是依靠机器学习算法的性能评估,主流的机器学习一般有数十种公认的指标。

无监督学习:一般最主流用轮廓系数。

注: 有时候特征工程做好之后,提升的可能不是算法的准确率,而且算法的其它性能指标,这时候也可以说特征工程是有效的。

1.5 特征理解:我的数据里面有什么

包括以下几个方面:

(1)结构化数据与非结构化数据

现阶段我的理解

例如数据是数值型还是Categorical 型。 如果是Categorical 型 又可以分为ordinal与norminal

(2)数据的4个等级

(3)识别数据的缺失值

(4)探索性数据分析

现阶段我的理解

这一块我觉得可以贯穿整个数据分析,一般通过这一步可以做很多需求。

(5)描述性统计

(6)数据可视化

1.6 特征增强:清洗数据

(1)对非结构化数据进行结构化。

(2)缺失值填充

(3)数据归一化

a. 标准化

b. 极差法

c. L1L2正则化

 

注:这一步并不删除或者插入新的属性。

1.7 特征选择:对坏属性说不

(1)相关系数

(2)识别并移除多重共线性

(3)卡方检验

(4)方差分析

(5)理解p值

(6)迭代特征选择

(7)用机器学习测量熵和信息增益

1.8 特征构建:能生成新特征吗

我的理解

比如评价驾驶风格的时候,根据速度算出加速度作为特征。

1.9 特征转换:数学显神通

现阶段理解:PCA 这种的

1.10 特征学习:以AI促AI

现阶段理解:神经网络这种。

 

1.11 总结

上面的内容具体部分会在下面每一章进行详细的讲解,本人看完第一章最大的收获就是对特征工程有一个具体流程的概念,每一个步骤都做什么,虽然以前也用到了其中的一些方法,但是感觉不系统。通过读第一章感觉条理性变强了。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值