【Machine Learning】特征工程之合并稀疏特征

一、稀疏特征       

         在我们做特征工程的时候,可能会碰到一个特征我们假设其特征列的符号值为v,其特征存在多种取值,标签label设为y,特征v如果有很多特征值对应标签y是相同的,那么这些v之间是没有意义的,我们称之为稀疏特征。这个时候我们可以进行合并稀疏特征,因为合并稀疏特征不仅可以降低计算成本,它也最小化了样品错误分类的可能性。

二、代码示例

# -*- coding: utf-8 -*-

import pandas as pd

def merge_sparse_feature(df):
    df.loc[(df['x'] == 'one')
           | (df['x'] == 'two')
           | (df['x'] == 'three')
           | (df['x'] == 'four')
    , 'x'] = 'x_1'


    df.loc[(df['x'] == 'five'
           | (df['x'] == 'six'
           | (df['x'] == 'seven'
           | (df['x'] == 'eight')
           | (df['x'] == 'nine')
    , 'x'] = 'x_2'

    return df

if __name__=='__main__':
    df=pd.read_csv('data.csv')
    df=one_hot(df)




  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值