一、定义
通过特定的统计方法(数学方法)将数据转换成算法要求的数据。
二、方法
(一)数值型数据
标准缩放:
1、归一化
2、标准化
3、缺失值
(二)类别型数据
one-hot编码
(三)时间类型
时间的切分
三、sklearn特征处理API
sklearn.preprocessing
四、归一化
(一)原理
通过对原始数据进行变换把数据映射到(默认为[0,1])之间
(二)目的
使得一个特征不会对最终结果造成更大的影响
(三)公式
注:作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0
(四)sklearn归一化API
sklearn.preprocessing.MinMaxScaler
(五)MinMaxScaler语法
MinMaxScaler(feature_range=(0,1)…)
每个特征缩放到给定范围(默认[0,1])
M
特征预处理
最新推荐文章于 2024-09-04 03:36:34 发布
特征预处理是机器学习的重要环节,包括数值型数据的标准缩放(归一化、标准化)、类别型数据的one-hot编码以及时间类型数据的处理。归一化通过MinMaxScaler将数据映射到[0,1]之间,而标准化则将数据变换到均值为0,标准差为1的范围内,增强数据的鲁棒性。在处理异常值时,标准化相比归一化更稳定。此外,Imputer用于处理缺失值,通常采用均值策略。"
95752379,7335330,Keras实现BiLSTM+Attention新闻标题分类教程,"['自然语言处理', '文本分类', 'Keras', '深度学习', 'BiLSTM', 'Attention机制']
摘要由CSDN通过智能技术生成