特征工程的准备：特征理解

最新推荐文章于 2024-09-20 23:32:26 发布

ordinary_brony

最新推荐文章于 2024-09-20 23:32:26 发布

阅读量291

点赞数

分类专栏：特征工程文章标签：机器学习数据分析人工智能

本文链接：https://blog.csdn.net/ordinary_brony/article/details/109967178

版权

特征工程专栏收录该内容

4 篇文章 0 订阅

订阅专栏

特征理解之前的知识储备（二）

导读
数据是否具有统一的格式
数值是指代类别还是具体数值
数据的四个等级
总结

导读

虽然我们介绍了数据的无量纲化，但是在实际编码之前我们还是需要多做一些准备工作。

在20多年的考试生涯中，老师都不断的提醒我们多读题。而在机器学习中，多读题也就变成了多了解数据的特点。也就是接下来要介绍的几个特点。

数据是否具有统一的格式

现在数据飞速膨胀，单一的数字已经没办法满足现在的高标准严要求了。所以，这里使用一些高维度的数据进行说明。

还是收集了20万猫娘数据的你，还是分析各种疾病。但是呢，病情记录却不全是报表形式的数据，而是一大堆毫不相关的症状堆叠在一起。这种数据被称为非结构化数据，或者是无组织数据。就像是：

序号	账号	情况
1	12301231823	眼球血丝较多，眼睛经常痒，咽喉处疼痛，鼻涕多
2	31287936661	呼吸不畅，喷嚏非常多，四肢无力
3	54174139414	胃胀痛，干呕，恶心
…	…	…

当我们分析情况的时候，就会人和机器一起一头雾水，不知道从哪开始。

另外，分析疾病并不能一杆子打死，而是各有不同，需要每只猫娘的个人信息。这个时候，由于医院系统的数字化管理，猫娘的信息都是以非常标准的报表形式给出，非常方便。这些数据就是结构化数据，或者是有组织数据。就像是：

编号	姓名	年龄	性别	种族	持有铃铛	铃铛登记时间
123831643	香子兰	14	女	猫	是	2018-12-25
123862173	巧克力	14	女	猫	是	2019/5/30
412371383	铃仙	16	女	兔	否	$\times$
…	…	…	…	…	…

收集这些信息的时候，由于非常严格的格式和非常好理解的表格形式，所以读取非常方便。

数值是指代类别还是具体数值

还是刚刚的个人信息的例子。

香子兰是女猫娘，这就是指代类别的数据。而年龄是14，这又是具体数值。虽然都是每一位用户的属性，却相当明确地给出了完全不一样的参考。

类别用于给用户分类，比如女性猫娘更适合比较精细的工作，而男性牛头人更适合力量型的工作等等；数值则用于定量表示用户的各种参数信息。比如握力、跳远距离等等。

数据的四个等级

刚刚我们把数据分为定性和定量两种，接下来我们继续分类：

定类等级
定序等级
定距等级
定比等级

刚刚提到的指代类别就是定类等级数据，这个比较好理解，就不再赘述。

而定序等级，则是在同一种前提下对所有的类别进行排序所得到的类别集合。打个比方，我们需要在地下城寻找更适合当裁缝的种族，所以收集大量的数据，并按照所有种族的平均表现进行排序。最后我们发现，蚕和毛毛虫这两个种族不相上下，并列第一，其次是蜘蛛，然后是人类。于是，我们就得到了一个有序的集合，这个集合就是含有定序等级的数据。虽然说这组数据中包含一些使用数据精确说明的定量数据，但是本身代表的实际上是一个类，哪怕这个数字是一个像 $25\%$ 之类的确切数值数。

定距等级，顾名思义，就是设置参照并使用差值进行绘图。还是知识储备：数据的无量纲化中跳远数据的例子。比起全部使用 $1.537$ 上下不等的共20万琐碎数据，还是将 $1.537$ 作为新的参照重新计算这些数据反而效果会更好。其中，这个由差值组成的新的数据集就是包含定距等级的数据集。当然，毕竟是20万条数据，画图将会是密密麻麻的一片，毫无参考价值。所以，这里可以以年龄为 $x$ 轴，每个年龄段都计算均值，这样就能得出年龄-跳远距离曲线。这个年龄又是定序等级。就变成了不同类别下的定量分析。全都联系起来了，不是么？

定比等级同样也是定量的描述，只不过和定距等级不一样的是，定距等级使用的是差值，而定比等级使用的是比值。同样需要参照物，研究的时候也是研究比值而不是源数据。CPU、GPU等电子产品的性能分析就是最好的例子。往往在新款CPU、GPU等电子产品推出的时候，都会和一个参照物进行比较。比如，intel新款CPU会和历代CPU产品进行比较，频率提升了多少比率、各种测试环境下的表现提升了多少比率等等；小米会和华为比较，打开应用的速度提升了百分之多少，游戏延迟降低了百分之多少等等。这些都是定比等级。

总结

最后就用《特征工程入门与实践》中的表格作总结吧。

下面这个表格总结了本篇的核心内容，也就是四大数据特点的比较。

等级	属性	例子	描述性统计	图表
定类	离散、无序	颜色、真或假	频率/占比、众数	条形图、饼状图
定序	有序	考试等级、年龄分段	频率、众数、中位数、百分数	条形图、饼图、茎叶图
定距	数据差有真实意义	温度、跳远	频率、众数、中位数、均值、标准差	条形图、饼图、茎叶图、箱线图、直方图
定比	连续、存在有真实意义的绝对零点，可以做除法	性能指标、金钱、重量	均值、标准差	直方图、箱线图

如果你不知道什么等级应该用什么样的统计量表示，那就对照下面这张表：

统计量	定类	定序	定距	定比
众数	$\sqrt{}$	$\sqrt{}$	$\sqrt{}$	有时可行
中位数	$\times$	$\sqrt{}$	$\sqrt{}$	$\sqrt{}$
差值、最小最大值	$\times$	$\sqrt{}$	$\sqrt{}$	$\sqrt{}$
均值	$\times$	$\times$	$\sqrt{}$	$\sqrt{}$
标准差	$\times$	$\times$	$\sqrt{}$	$\sqrt{}$