1. 特征工程:原理及框架

特征工程

内涵

对于特征工程的理解,无需对此进行严格的划分,因为依据不同的标准,各个领域都会有不同。只需要知道,类似于对数据进行加工的都是特征工程,这个概念本身也不重要,不必深究。总之,特征工程就是数据加工


加工数据原理和方法

如何加工数据是重点。
首先要明确我们做数据加工,目的是什么?事实上,根据不同的业务和问题需求,我们用到的方法是不同的,可是遵循的原理确实一致的,那就是还原真实。通常我们在现实生活中如何还原真实,根据以前的案例?这只是表象,其实根据的是统计学原理,这是大数定理所决定的当然还有其他著名统计学原理,统计学中有一个奇怪的现象,就是一个大定理适合现实中的所有情况。比如一个事件对应的分布,只要是事件定义了,数据量一大都会向着分布律靠拢。再比如天下第一分布之正态分布(这是本科概率论老师常挂在嘴边的一句花),生活中一切事物发展遵循该分布,这和二八定律是一致的只是站在不同的角度称呼罢了。所以,我们应该清楚,特征工程就是在利用已存在的数据去找到它的分布,这是我们做加工数据应该遵循的大原则。那么,该如何根据已经存在的数据去找分布呢?何况数据很可能是错误的(包括缺失值)。需要注意的是异常值不一定是错误值,人们往往默认异常值就是错误值进行删除,虽然结果似乎证明了删除更有效。但实际上如果没有一个理论支撑都是不正确的做法。
那么第一件事应该是找到那个错误值,而不是一上来就进行归一化和标准化等操作。合理加工数据的第一步就是找到数据错误值。如何找呢?
毋庸置疑,我们不是先知,从原理来讲是没办法真正找到那个错误值的,所以才会出现去寻找数据异常值,将异常值近似等于错误值进行批处理。暂且不讨论异常值,还是回到如何找到错误值的问题上,这里是在极高置信度的情况下,因为世上没有绝对的事,这是客观的。
我想一个重要的方法是从源头避免错误,将更多的工作重心放在数据的生成上,保证原始数据生成有极高的置信度。次之,利用分布式存储特点,进一步避免输入和传输过程中数据的出错。
接着是将异常值作为错误值处理,方法有:1

  • 简单排序找出极值设定阈值以判断是否是异常值
  • 基于图(箱型图、直方图和散点图)设定阈值以判断是否是异常值
  • 基于z分数,相当于计算每个值的方差和偏移设定一个阈值来判定为异常值
  • 基于四分位数区间判定
  • 假设检验(概率理论其实以上四种方法都有体现这种思想的),原假设为每一个值符合某个分布
    如何取阈值的大小是一个NP-H问题。
    判定为异常接着

判定为异常后是要处理这些异常:方法有:2

这里补充一个理论可行的方法(仅对相同业务有效):
对应业务专家调查法+机器学习模型:将有经验的业务人员做大量异常数据标注,再结合机器学习模型预测出判别阈值。然而这种方法在现实中可行性并不高。

“错误值”(近似用了异常值,实则是不严谨的,知道就好)修正完后,需要考虑,机器学习模型的预测原理,对于每一条数据元素即每一条数据样本而言对应着一个预测结果,但是我们在预测的时候,会不会出现,某一类样本极其少,某一类样本数及其大的情况呢?答案是肯定的。这就是所谓的数据倾斜现象,那么这种情况我们有必要去加工吗?答案依然是肯定的,如果不加工,是不是某些样本量就不足,会不会出现预测效果明明不好但判定为好,因为就预测(或训练)那么几个(假设是训练一次或验证一次的情况)。那么解决办法又有哪些?
对于数据倾斜?该如何处理,这是面试和工程中容易遇到的问题。

  • 对于少的就过采样,反之,对于多的就欠采样
  • 改变权重至均衡
  • k折验证(上面说到,多次抽样训练和检验可从某种程度减少数据不平衡现象)

可以不想做数据倾斜调整吗?那么就要去调整算法选择和评估方法。以PR曲线而不是AUC曲线作为评价模型的方法和对数据倾斜不敏感算法
以上过程完成,我们在尽力保证了数据的尽量真实度还原。而且是针对一个数据集而言,我们只是针对一个特征,相当于一个属性,也相当于数据结构中的一个数据项而言的。对于特定的业务问题,我们要提高模型的速度,我们要做的是剔除无效特征,这个“无效”指的是和我们的预测结果的关系不大,也是相对的无效。我们的目的是准确率和速度的平衡。要相对的剔除部分“无效”特征。又该如何做呢?
这是面试遇到过的问题——你是如何去确定哪些特征是有效的?确定它们的关系一般会用到什么方法?
待整理 ⋯ \cdots


Thanks for reading


  1. 异常值检验友情链接(1)异常值检验友情链接(2) ↩︎

  2. 异常值处理方法链接 ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值