机器学习中样本数据预处理

本文探讨了机器学习中样本数据预处理的重要性,包括特征缩放、特征标准化、类别特征预处理(如One-hot编码)、构造多项式特征以及标签编码。强调了正确处理类别特征和构建非线性关系的重要性,并提及了缺失值和不平衡样本处理的专门讨论链接。
摘要由CSDN通过智能技术生成

特征缩放

X_norm=(X-X_min)/(X_max-X_min )

这里写图片描述

lambda x: (x - x.min()) / (x.max() - x.min())

特征标准化

Gaussian with zero mean and unit variance. z=(x-μ)/σ

这里写图片描述

numeric_feats = all_X.dtypes[all_X.dtypes != "object"].index
all_X[numeric_feats] = all_X[numeric_feats].apply(lambda x: (x - x.mean())
                                                            / (x.std()))

类别特征预处理:

不能将类别特征简单表示为数字,因为模型会将类别解释成有序,实际上类别是任意排列的,这里可以用One-hot编码方式来表示。这样估计器将每个具有m个可能值的分类特征转换成m个二元特征,只有一个有效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值