机器学习之特征工程

在工业界一直流行着一句话,数据的质量决定了模型的上线了,而特征工程与模型的选择只是尽可能的去逼近这个上线,当我们在数据无法改变的情况,特征工程的优化便显得尤为重要。

我们输入模型中,模型只认识数据,并不知道某一列所代表的含义,例如树模型,它只会按照一定的规则去不停的分支,并不知道分支所代表的含义,而特征工程所做的就是尽可能的将数据转换成易于分支的或者分支后效果较好的数据。假设我们有很多车的行驶时间,与行驶距离两列特征,目的是判断这辆车平时行驶的快慢,很显然,我们会立刻想到用速度来判别快慢,但我们两列特征中没有速度,这时我们通过特征工程将距离除以时间得到速度这个新的特征,然后树模型在进行分支,自动学习到判别快慢的阈值点,从而得到良好的模型效果。

1  时间列

    (1) 第一种转换为与某一时间点的差值,一般为时间戳形式,或者与某一定固定时间(起始时间等)的差值

    (2) 转换成星期,小时,甚至分钟,天数(1-31号哪一天),季度等等

    (3) 

2  地点特征

    (1)转换成离散值,每一张地区设置一种编码,多少个地点便设置多少中编码格式,如果地点种类较多,可以使用除了地点列外其他特征进行聚类,或者观测每一种地点中各种label的比例分布,若比例分布相近的,则划为一类。

    (2)转换成经纬度,可以通过高德地图api转换成经纬度形式,从而计算距离,远近等特征

3  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值