特征理解之前的知识储备(二)
导读
虽然我们介绍了数据的无量纲化,但是在实际编码之前我们还是需要多做一些准备工作。
在20多年的考试生涯中,老师都不断的提醒我们多读题。而在机器学习中,多读题也就变成了多了解数据的特点。也就是接下来要介绍的几个特点。
数据是否具有统一的格式
现在数据飞速膨胀,单一的数字已经没办法满足现在的高标准严要求了。所以,这里使用一些高维度的数据进行说明。
还是收集了20万猫娘数据的你,还是分析各种疾病。但是呢,病情记录却不全是报表形式的数据,而是一大堆毫不相关的症状堆叠在一起。这种数据被称为非结构化数据,或者是无组织数据。就像是:
序号 | 账号 | 情况 |
---|---|---|
1 | 12301231823 | 眼球血丝较多,眼睛经常痒,咽喉处疼痛,鼻涕多 |
2 | 31287936661 | 呼吸不畅,喷嚏非常多,四肢无力 |
3 | 54174139414 | 胃胀痛,干呕,恶心 |
… | … | … |
当我们分析情况的时候,就会人和机器一起一头雾水,不知道从哪开始。
另外,分析疾病并不能一杆子打死,而是各有不同,需要每只猫娘的个人信息。这个时候,由于医院系统的数字化管理,猫娘的信息都是以非常标准的报表形式给出,非常方便。这些数据就是结构化数据,或者是有组织数据。就像是:
编号 | 姓名 | 年龄 | 性别 | 种族 | 持有铃铛 | 铃铛登记时间 |
---|---|---|---|---|---|---|
123831643 | 香子兰 | 14 | 女 | 猫 | 是 | 2018-12-25 |
123862173 | 巧克力 | 14 | 女 | 猫 | 是 | 2019/5/30 |
412371383 | 铃仙 | 16 | 女 | 兔 | 否 | × \times × |
… | … | … | … | … | … |
收集这些信息的时候,由于非常严格的格式和非常好理解的表格形式,所以读取非常方便。
数值是指代类别还是具体数值
还是刚刚的个人信息的例子。
香子兰是女猫娘,这就是指代类别的数据。而年龄是14,这又是具体数值。虽然都是每一位用户的属性,却相当明确地给出了完全不一样的参考。
类别用于给用户分类,比如女性猫娘更适合比较精细的工作,而男性牛头人更适合力量型的工作等等;数值则用于定量表示用户的各种参数信息。比如握力、跳远距离等等。
数据的四个等级
刚刚我们把数据分为定性和定量两种,接下来我们继续分类:
- 定类等级
- 定序等级
- 定距等级
- 定比等级
刚刚提到的指代类别就是定类等级数据,这个比较好理解,就不再赘述。
而定序等级,则是在同一种前提下对所有的类别进行排序所得到的类别集合。打个比方,我们需要在地下城寻找更适合当裁缝的种族,所以收集大量的数据,并按照所有种族的平均表现进行排序。最后我们发现,蚕和毛毛虫这两个种族不相上下,并列第一,其次是蜘蛛,然后是人类。于是,我们就得到了一个有序的集合,这个集合就是含有定序等级的数据。虽然说这组数据中包含一些使用数据精确说明的定量数据,但是本身代表的实际上是一个类,哪怕这个数字是一个像 25 % 25\% 25%之类的确切数值数。
定距等级,顾名思义,就是设置参照并使用差值进行绘图。还是知识储备:数据的无量纲化中跳远数据的例子。比起全部使用 1.537 1.537 1.537上下不等的共20万琐碎数据,还是将 1.537 1.537 1.537作为新的参照重新计算这些数据反而效果会更好。其中,这个由差值组成的新的数据集就是包含定距等级的数据集。当然,毕竟是20万条数据,画图将会是密密麻麻的一片,毫无参考价值。所以,这里可以以年龄为 x x x轴,每个年龄段都计算均值,这样就能得出年龄-跳远距离曲线。这个年龄又是定序等级。就变成了不同类别下的定量分析。全都联系起来了,不是么?
定比等级同样也是定量的描述,只不过和定距等级不一样的是,定距等级使用的是差值,而定比等级使用的是比值。同样需要参照物,研究的时候也是研究比值而不是源数据。CPU
、GPU
等电子产品的性能分析就是最好的例子。往往在新款CPU
、GPU
等电子产品推出的时候,都会和一个参照物进行比较。比如,intel
新款CPU
会和历代CPU
产品进行比较,频率提升了多少比率、各种测试环境下的表现提升了多少比率等等;小米会和华为比较,打开应用的速度提升了百分之多少,游戏延迟降低了百分之多少等等。这些都是定比等级。
总结
最后就用《特征工程入门与实践》中的表格作总结吧。
下面这个表格总结了本篇的核心内容,也就是四大数据特点的比较。
等级 | 属性 | 例子 | 描述性统计 | 图表 |
---|---|---|---|---|
定类 | 离散、无序 | 颜色、真或假 | 频率/占比、众数 | 条形图、饼状图 |
定序 | 有序 | 考试等级、年龄分段 | 频率、众数、中位数、百分数 | 条形图、饼图、茎叶图 |
定距 | 数据差有真实意义 | 温度、跳远 | 频率、众数、中位数、均值、标准差 | 条形图、饼图、茎叶图、箱线图、直方图 |
定比 | 连续、存在有真实意义的绝对零点,可以做除法 | 性能指标、金钱、重量 | 均值、标准差 | 直方图、箱线图 |
如果你不知道什么等级应该用什么样的统计量表示,那就对照下面这张表:
统计量 | 定类 | 定序 | 定距 | 定比 |
---|---|---|---|---|
众数 | \sqrt{} | \sqrt{} | \sqrt{} | 有时可行 |
中位数 | × \times × | \sqrt{} | \sqrt{} | \sqrt{} |
差值、最小最大值 | × \times × | \sqrt{} | \sqrt{} | \sqrt{} |
均值 | × \times × | × \times × | \sqrt{} | \sqrt{} |
标准差 | × \times × | × \times × | \sqrt{} | \sqrt{} |
现在,相信你对一大堆不知所云甚至毫无关联的数据的时候,不会像以前那么害怕了,不是么?最后还是提醒一下,特征工程的特征理解,最最核心的操作步骤,就是下面这张图所示的:
是不是有点能理解了?