数据预处理2--特征处理

数据预处理2–特征处理

首先进行特征处理是非常必要的,那么什么是特征处理?
特征工程是通过对原始数据处理和加工,将原始数据的属性转换为数据特征的过程。特征工程涵盖很多方面,其中较重要的部分是特征处理和特征选择。
特征处理通常包含以下四种:
特征缩放
数值离散化
特征编码
时间数值转换

一、特征缩放
1.进行特征缩放的必要性:
在实际业务中,当数据的量纲不同,数量级别差距大时,会影响最终的数据模型,因此需用特征缩放来平衡各特征贡献。
特征缩放可提高模型精度和模型收敛速度。它是数据预处理的重要环节之一。特征缩放又叫数据归一化。

2.方法:
2.1标准化 (Standardization):
标准化是将训练集中的某一列 (特征) 缩放成均值为0,方差为1的状态。对特征向量进行缩放是无意义的,比如对班级、年龄、性别一组特征向量 (行) 进行标准化操作是无价值的。标准化要求原始数据近似满足高斯分布,数据越接近高斯分布,标准化效果越佳。
在这里插入图片描述
特点:
标准化后使得不同度量的数据特征具有可比性,同时不改变数据的原始分布状态。
标准化对数据进行规范化处理,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

2.2最小值-最大值归一化 (Min-Max Normalization)
将训练集中某一列特征数值缩放到0到1或-1到1之间。
在这里插入图片描述
特点:
受训练集中最大值和最小值影响大,存在数据集中最大值与最小值动态变化的可能。
容易受噪声(异常点、离群点)影响。

2.3均值归一化 (Mean Normalization)
在这里插入图片描述
x是原始数据。
2.4缩放成单位向量 (Scaling to Unit Length)

在这里插入图片描述
3.标准化和最小值-最大值的区别和联系:
在这里插入图片描述
4.应用场景:
在这里插入图片描述
不要在整个数据集上做归一化处理,要区分训练集和测试集;
注意:这一点在之前的数据挖掘的笔记里也提到过,要将数据集分成训练和测试,而不是将整个数据集进行处理!
在实际应用中,特征缩放的标准化操作更常用。

二、数值离散化
什么是数值离散化?
把无限空间中有限的个体映射到有限的空间中去,以提高算法的时空效率。换句话说,在不改变数据相对大小的情况下,对数据进行相应缩小。
注意:离散化仅适用于只关注元素之间的大小关系而不关注元素数值本身的情况。
在这里插入图片描述
1.应用:
数值离散化在数据预处理中发挥重要作用。离散化可以降低特征中的噪声节点,提升特征的表达能力。但在实际应用中要根据不同环境和不同数据,选择合适的数值离散化方法。

2.必要性:
在数据挖掘理论研究中,数值离散化对数据预处理影响重大。研究表明离散化数值在提高建模速度和提高模型精度上有显著作用。
比如,对于决策树来说,离散化数据可以加快数据建模的速度,拥有更高的模型精度;离散化数值后,简化了逻辑回归,降低了数据过拟合的风险。
数值离散化实际是一个数据简化机制。因为通过数值离散化过程,一个完整的数据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。
比如,30-40为一个年龄区间,标记为Mature。这样就可以避免从30岁到31岁就变成了另一类群体人员。
离散化后的特征对异常数据有很强的鲁棒性。能减少噪音节点对数据的影响。
比如,如果规定满分值中成绩大于80分为A,小于80分为B,则出现异常值120会被标记为A,减低了异常值对模型的干扰。
某些算法只能处理离散化数据,但即使模型可以处理连续型数据,其综合学习效率和模型精度也要稍逊色于离散化数据。
值得注意的是,任何离散化过程都会带来一定的信息丢失,因此寻求最小化信息丢失是使用数值离散化技术人员的核心目标之一。

3.连续变量的离散化:
连续变量的离散化分为有监督和无监督两类。
连续变量的离散化过程分为四个核心步骤:
3.1Sorting: 对连续型变量进行排序,为离散化做准备:
对连续型变量升序或降序。尽量选择时间复杂度低的排序算法。

3.2Evaluating: 对Splitting来说评估分割点(自顶向下),对Merging来说评估合并点(自底向上):
排序完成后,要选择较佳的分割点或合并点。自顶向下是划分间隔,自底向上是合并间隔。
评估较佳分割点或合并点的策略是评价函数,比如,熵测量、均方根误差 (RMSE)、平均绝对百分误差 (MAPE)等 (详细信息后续课程讲解),以此判断分割或合并后的模型的Performance是否提升,提升保留,否则舍弃。

3.3Splitting or Merging: 分割或合并区间:
确定了较佳分割点或合并点后,开始对连续数据集进行分割或合并。
对于Splitting来说,针对每个属性,选择最好的分割点将数据分割成两部分。
对于Merging来说,针对每个属性,选择最好的合

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理是数据分析中非常重要的一个环节,它可以让原始数据更加适合用于各种分析和建模任务。常见的数据预处理包括数据清洗、缺失值处理、异常值处理特征选择、特征缩放和特征变换等。下面我们将介绍一些常见的数据预处理方法。 1. 数据清洗 数据清洗是指在数据中去除不合理、重复或者无效的数据,保证数据的完整性和准确性。常见的数据清洗方法包括: - 删除重复数据 - 去除异常值 - 去除不合理数据 - 填充缺失值 2. 缺失值处理 缺失值是指数据集中某些数据缺失的情况。常见的缺失值处理方法包括: - 删除缺失值 - 插值法填补缺失值 - 使用平均值、中位数、众数等统计量填补缺失值 3. 异常值处理 异常值是指数据集中不符合正常规律的数据。常见的异常值处理方法包括: - 删除异常值 - 修改异常值 - 使用插值法填补异常值 4. 特征选择 特征选择是指从原始数据中选择最具有代表性的特征,以便用于分析和建模。常见的特征选择方法包括: - 过滤式特征选择 - 包裹式特征选择 - 嵌入式特征选择 5. 特征缩放 特征缩放是指将不同量纲的特征缩放到相同的范围内。常见的特征缩放方法包括: - 标准化 - 归一化 - 对数变换 6. 特征变换 特征变换是指通过对原始数据进行某些变换,使得数据更适合用于分析和建模。常见的特征变换方法包括: - 主成分分析(PCA) - 线性判别分析(LDA) - 因子分析 以上就是一些常见的数据预处理方法,通过对数据进行适当的预处理,可以提高数据分析和建模的准确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值