特征工程的准备:特征理解

导读

虽然我们介绍了数据的无量纲化,但是在实际编码之前我们还是需要多做一些准备工作。

在20多年的考试生涯中,老师都不断的提醒我们多读题。而在机器学习中,多读题也就变成了多了解数据的特点。也就是接下来要介绍的几个特点。

数据是否具有统一的格式

现在数据飞速膨胀,单一的数字已经没办法满足现在的高标准严要求了。所以,这里使用一些高维度的数据进行说明。

还是收集了20万猫娘数据的你,还是分析各种疾病。但是呢,病情记录却不全是报表形式的数据,而是一大堆毫不相关的症状堆叠在一起。这种数据被称为非结构化数据,或者是无组织数据。就像是:

序号账号情况
112301231823眼球血丝较多,眼睛经常痒,咽喉处疼痛,鼻涕多
231287936661呼吸不畅,喷嚏非常多,四肢无力
354174139414胃胀痛,干呕,恶心

当我们分析情况的时候,就会人和机器一起一头雾水,不知道从哪开始。

另外,分析疾病并不能一杆子打死,而是各有不同,需要每只猫娘的个人信息。这个时候,由于医院系统的数字化管理,猫娘的信息都是以非常标准的报表形式给出,非常方便。这些数据就是结构化数据,或者是有组织数据。就像是:

编号姓名年龄性别种族持有铃铛铃铛登记时间
123831643香子兰142018-12-25
123862173巧克力142019/5/30
412371383铃仙16 × \times ×

收集这些信息的时候,由于非常严格的格式和非常好理解的表格形式,所以读取非常方便。

数值是指代类别还是具体数值

还是刚刚的个人信息的例子。

香子兰是女猫娘,这就是指代类别的数据。而年龄是14,这又是具体数值。虽然都是每一位用户的属性,却相当明确地给出了完全不一样的参考。

类别用于给用户分类,比如女性猫娘更适合比较精细的工作,而男性牛头人更适合力量型的工作等等;数值则用于定量表示用户的各种参数信息。比如握力、跳远距离等等。

数据的四个等级

刚刚我们把数据分为定性和定量两种,接下来我们继续分类:

  • 定类等级
  • 定序等级
  • 定距等级
  • 定比等级

刚刚提到的指代类别就是定类等级数据,这个比较好理解,就不再赘述。

定序等级,则是在同一种前提下对所有的类别进行排序所得到的类别集合。打个比方,我们需要在地下城寻找更适合当裁缝的种族,所以收集大量的数据,并按照所有种族的平均表现进行排序。最后我们发现,蚕和毛毛虫这两个种族不相上下,并列第一,其次是蜘蛛,然后是人类。于是,我们就得到了一个有序的集合,这个集合就是含有定序等级的数据。虽然说这组数据中包含一些使用数据精确说明的定量数据,但是本身代表的实际上是一个类,哪怕这个数字是一个像 25 % 25\% 25%之类的确切数值数。

定距等级,顾名思义,就是设置参照并使用差值进行绘图。还是知识储备:数据的无量纲化中跳远数据的例子。比起全部使用 1.537 1.537 1.537上下不等的共20万琐碎数据,还是将 1.537 1.537 1.537作为新的参照重新计算这些数据反而效果会更好。其中,这个由差值组成的新的数据集就是包含定距等级的数据集。当然,毕竟是20万条数据,画图将会是密密麻麻的一片,毫无参考价值。所以,这里可以以年龄为 x x x轴,每个年龄段都计算均值,这样就能得出年龄-跳远距离曲线。这个年龄又是定序等级。就变成了不同类别下的定量分析。全都联系起来了,不是么?

定比等级同样也是定量的描述,只不过和定距等级不一样的是,定距等级使用的是差值,而定比等级使用的是比值。同样需要参照物,研究的时候也是研究比值而不是源数据。CPUGPU等电子产品的性能分析就是最好的例子。往往在新款CPUGPU等电子产品推出的时候,都会和一个参照物进行比较。比如,intel新款CPU会和历代CPU产品进行比较,频率提升了多少比率、各种测试环境下的表现提升了多少比率等等;小米会和华为比较,打开应用的速度提升了百分之多少,游戏延迟降低了百分之多少等等。这些都是定比等级

总结

最后就用《特征工程入门与实践》中的表格作总结吧。

下面这个表格总结了本篇的核心内容,也就是四大数据特点的比较

等级属性例子描述性统计图表
定类离散、无序颜色、真或假频率/占比、众数条形图、饼状图
定序有序考试等级、年龄分段频率、众数、中位数、百分数条形图、饼图、茎叶图
定距数据差有真实意义温度、跳远频率、众数、中位数、均值、标准差条形图、饼图、茎叶图、箱线图、直方图
定比连续、存在有真实意义的绝对零点,可以做除法性能指标、金钱、重量均值、标准差直方图、箱线图

如果你不知道什么等级应该用什么样的统计量表示,那就对照下面这张表:

统计量定类定序定距定比
众数 \sqrt{} \sqrt{} \sqrt{} 有时可行
中位数 × \times × \sqrt{} \sqrt{} \sqrt{}
差值、最小最大值 × \times × \sqrt{} \sqrt{} \sqrt{}
均值 × \times × × \times × \sqrt{} \sqrt{}
标准差 × \times × × \times × \sqrt{} \sqrt{}

现在,相信你对一大堆不知所云甚至毫无关联的数据的时候,不会像以前那么害怕了,不是么?最后还是提醒一下,特征工程的特征理解,最最核心的操作步骤,就是下面这张图所示的:

特征工程流程

是不是有点能理解了?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ordinary_brony

代码滞销,救救码农

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值