特征工程

特征工程小结

这一节主要记录学习 《特征工程入门和实践》 书籍的记录

特征工程是什么?

特征工程(feature engineering)是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。

特征工程包括什么?

1.特征理解:学习如何识别定量数据和定性数据。
2.特征增强:清洗和填充缺失值,最大化数据集的价值。
3.特征选择:通过统计方法选择一部分特征,以减少数据噪声。
4.特征构建:构建新的特征,探索特征间的联系。
5.特征转换:提取数据中的隐藏结构,用数学方法转换数据集、增强效果。
6.特征学习:利用深度学习的力量,以全新的视角看待数据,从而揭示新的问题,并予以解决。

特征理解:我的数据集里有什么?

1.结构化数据与非结构化数据;
2.定量数据与定性数据;
3.数据的4个等级:

定类等级(nominal level)
	例如,血型(A、B、O型)、动物物种和人名。
    定类等级是数据的第一个等级,其结构最弱。这个等级的数据只按名称分类;
    不能执行任何定量数学操作,例如加法或除法。可以进行计数,如众数
    属性:离散无序
    描述性统计:频率/占比、众数
    图表:条形图和饼图
	
定序等级(ordinal level)
    例如:李克特量表(比如1~10的评分)、考试成绩等级(A、B、C、D).
    定序等级等级继承了定类等级的所有属性,而且还有重要的附加属性,汇总如下:
    可以计数、比较、排序,计算众数、中位数、百分位数
    定序等级的数据可以自然排序。这意味者,可以认为列中某些数据比其他数据更好或更大
    属性:有序类别比较
    描述性统计:频率、众数、中位数、茎叶图
    图形:条形图、饼图、茎叶图.


定距等级(interval level)
	例如:摄氏度
    在定距等级上可以进行加减,可以引入:算术平均数(均值)和标准差
    描述性统计:频率、众数、中位数、均值、标准差
    图形:条形图、饼图、茎叶图、散点图、直方图(直方图是条形图的“近亲”,用不同的桶包含不同的数据,对数据的频率进行可视化).

定比等级(ratio level)
	例如:金钱、重量
    定比等级拥有最高程度的控制和数学运算能力,不仅继承了定距的加减运算,而且有了一个"绝对零点"的概念,可以做乘除运算。
	描述性统计:均值、标准差
	图形:直方图、箱线图

4.探索性数据分析和数据可视化;
5.描述性统计;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值