scikit-learn库学习-特征工程

一、分类特征

常用的解决方法是独热编码( One-Hot 编码)。 它可以有效增加额外的列, 让 0 和 1 出现在对应的列分别表示每个分类值有或无。

1、pandas库

pd.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

参数说明

  • data:array-like, Series, or DataFrame
  • prefix:给输出的列添加前缀,如prefix=“A”,输出的列会显示类似
  • prefix_sep:设置前缀跟分类的分隔符sepration,默认是下划线"_"

实例解释

对指定的列

在这里插入代码片

2、scikit-learn库

2.1 DictVectorizer

可以用于处理对象是符号化(非数字化)的但是具有一定结构的特征数据,如字典等。
DictVectorizer对非数字化的处理方式是,借助原特征的名称,组合成新的特征,并采用0/1的方式进行量化,而数值型的特征转化比较方便,一般情况维持原值即可。

from sklearn.feature_extraction import DictVectorizer

data = [{
   'price': 850000, 'rooms': 4, 'neighborhood': 'Queen Anne'},
        {
   'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'},
        {
   'price'
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值