特征处理--数值特征处理

本文详细介绍了在机器学习项目中数值特征的处理方法,包括编码、二值特征处理、多项式特征处理和分位数切分等。重点讲解了LabelEncoder、One-hot Encoding、Binarizer以及对数变换等技术,这些技术对于数据预处理和特征工程至关重要。此外,还提及了日期和时间特征的处理,以及文本特征处理的一些基础工具,如nltk和jieba。
摘要由CSDN通过智能技术生成

项目工作流程:
在这里插入图片描述

数值特征处理

编码

离散值处理

LabelEncoder:用的比较多

标准化标签,将标签值统一转换成range(标签值个数-1)范围内
简单来说 LabelEncoder 是对不连续的数字或者文本进行编号

Map

One-hot Encoding

one-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。

Get Dummy:比较好用,用的多

在pandas中
将拥有不同值的列转化为0/1的one-hot编码

二值特征处理

普通

watched = np.array(popsong_df['listen_count']) 
watched[watched >= 1] = 1
popsong_df['watched'] = watched
popsong_df.head(10)

Binarizer:二值化

from sklearn.preprocessing import Binarizer
# 设置阈值,大于0.9设置为1,小于0.9设置为0
bn 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值