特征预处理

最新推荐文章于 2024-09-04 03:36:34 发布

DAN_L

最新推荐文章于 2024-09-04 03:36:34 发布

阅读量416

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/DAN_L/article/details/105025499

版权

特征预处理是机器学习的重要环节，包括数值型数据的标准缩放（归一化、标准化）、类别型数据的one-hot编码以及时间类型数据的处理。归一化通过MinMaxScaler将数据映射到[0,1]之间，而标准化则将数据变换到均值为0，标准差为1的范围内，增强数据的鲁棒性。在处理异常值时，标准化相比归一化更稳定。此外，Imputer用于处理缺失值，通常采用均值策略。" 95752379,7335330,Keras实现BiLSTM+Attention新闻标题分类教程,"['自然语言处理', '文本分类', 'Keras', '深度学习', 'BiLSTM', 'Attention机制']

摘要由CSDN通过智能技术生成

一、定义
通过特定的统计方法（数学方法）将数据转换成算法要求的数据。
二、方法
（一）数值型数据
标准缩放：
1、归一化
2、标准化
3、缺失值
（二）类别型数据
one-hot编码
（三）时间类型
时间的切分
三、sklearn特征处理API
sklearn.preprocessing
四、归一化
（一）原理
通过对原始数据进行变换把数据映射到(默认为[0,1])之间
（二）目的
使得一个特征不会对最终结果造成更大的影响
（三）公式
在这里插入图片描述

注：作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0
（四）sklearn归一化API
sklearn.preprocessing.MinMaxScaler
（五）MinMaxScaler语法
MinMaxScaler(feature_range=(0,1)…)
每个特征缩放到给定范围（默认[0,1]）
M