快速掌握特征构建的常用方法

本文介绍了在工业互联网和智能制造中,特征构建的重要性。内容包括时间列处理、类别属性分解、分箱和分区、交叉特征等方法,旨在增强模型的解释能力并减少过拟合风险。通过实例解析,揭示如何利用这些方法有效处理和构建特征。
摘要由CSDN通过智能技术生成

在之前格物汇的文章中,我们介绍了工业数据预处理的方法以及特征工程的基本知识,今天要带大家来了解如何做特征构建。

特征构建常用方法

特征构建的常用方法是属性分割和结合,这一般根据我们具体的问题所决定。我们通过具体的应用场景来看看:

时间列处理
时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。通常时间序列数据会含有一定的趋势和周期性,这时需要我们去构建趋势因子和周期因子。
在这里插入图片描述

分解类别属性
一些属性是类别型而不是数值型,举一个简单的例子,由{红,绿、蓝}组成的颜色属性,最常用的方式是把每个类别属性转换成二元属性,即从{0,1}取一个值。因此基本上增加的属性等于相应数目的类别,并且对于你数据集中的每个实例,只有一个是1(其他的为0),这也就是独热(one-hot)编码方式。我们在前面的文章中介绍过了,在此不再赘述。

分箱和分区
有时候,将数值型属性转换成类别呈现更有意义,同时能使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。举个例子,我们预测一个人是否拥有某款衣服,这里年龄是一个确切的因子。其实年龄组是更为相关的因子,所以我们可以将年龄分布划分成1-10,11-18,19-25,26-40等年龄段,分别表示 幼儿,青少年,青年,中年四个年龄组,让相近的年龄组表现出相似的属性。此外

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值