特征工程常用方法

特征工程

        ●特征(feature) :数据中抽取出来的对结果预测有用的信息。
        ●特征的个数就是数据的观测维度
        ●特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程,
        ●特征工程一般包括特征清洗(采样、清洗异常样本),特征处理和特征选择
        ●特征按照不同的数据类型分类,有不同的特征处理方法
                ---数值型
                ---类别型
                ---时间型
                ---统计型

数值型特征处理

        用连续数值表示当前维度特征,通常会对数值型特征进行数学上的处理,主要的做法是归一化离散化

数值型特征处理——归一化

        ●特征与特征之间应该是平等的,区别应该体现在特征内部
        ●例如房屋价格和住房面积的幅度是不同的,房屋价格可能在3000000 ~ 15000000 (万)之间,而住房面积在40~300 (平方米)之间,那么明明是平等的两个特征,输入到相同的模型中后由于本身的幅值不同导致产生的效果不同,这是不合理的

Feature_{new}=\frac{Feature_{old}}{Feature_{max}-Feature_{min}}

数值型特征处理一离散化

        ●将原始连续值切断,转化为离散值.      

                                          
        ●让座问题: 假设我们要训练一个模型判断在公交车上应不应该给一个人让座,按照常理,应该是给年龄很大和年龄很小的人让座
        ●对于以上让座问题中的年龄特征,对于一些模型,假设模型为y=θx,输入的x(年龄)对于最后的贡献是正/负相关的,即x越大越应该让座,但很明显让座问题中,年龄和是否让座不是严格的正相关或者负相关,这样只能兼顾年龄大的人,无法兼顾年龄大的人和年龄小的人

        对于让座问题,我们可以使用阈值将年龄进行分段,将一个age特征分为多个特征,将连续值离散化:



➢离散化的两种方式
        ●等步长.
                简单但不一定有效.
        ●等频
                min>25%>75%>max
➢两种方法对比
        ●等频的离散化方法很精准,但需要每次都对数据分布进行一遍从新计算,因为昨天用户在淘宝上买东西的价格分布和今天不一定相同,因此昨天做等频的切分点可能并不适用,而线上最需要避免的就是不固定,需要现场计算,所以昨天训练出的模型今天不一定能使用
        ●等频不固定,但很精准,等步长是固定的,非常简单,因此两者在工业上都有应用

类别型特征处理

        类别型数据本身没有大小关系,需要将它们编码为数字,但它们之间不能有预先设定的大小关系,因此既要做到公平,又要区分开它们,那么直接开辟多个空间
➢One-Hot 编码/哑变量
        One-Hot编码/哑变量所做的就是将类别型数据平行地展开,也就是说,经过One-Hot编码/哑变量后,这个特征的空间会膨胀

时间型特征处理

        时间型特征既可以做连续值,又可以看做离散值。
        ➢连续值
                持续时间(网页 浏览时长)
                间隔时间(.上一次购买/点击离现在的时间间隔)

        ➢离散值
                天中哪个时间段
                一周中的星期几
                年中哪个月/星期
                工作日/周末

统计型特征处理

        加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过多少。
        分位线:商品属于售出商品价格的分位线处。
        次序性:商品处于热门商品第几位。
        比例类:电商中商品的好/中/差评比例。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值