深度学习入门(七):处理流程注意点

本文借鉴机器学习知识点全面总结-CSDN博客,建议大家都来学习⬅!

一、需求+数据分析

在需求分析与数据获取过程中,需要重点考虑几个方面。首先,要明确模型的目标,根据目标确定所需的相关因素。接着,定义特征的方式,比如取平均值或方差等定义形式。此外,确定这些特征是连续的还是离散的也非常重要。通常情况下,倾向于将特征划分为离散特征,因为在机器学习中,处理离散特征的效果往往优于处理连续特征

对于离散特征,还需要合理划分。离散特征的划分方式对模型的效果有显著影响。在数据获取过程中,分析并选择合适的特征划分方式是至关重要的。同时,数据的获取方式也要考虑,公开易得的数据集能够直接下载?还是需要爬虫等技术获取,都是需要分析的需求内容。


二、数据预处理

常见预处理步骤

  1. 直观分析(观察数据分布,进而判断是否需要进行清洗以及清洗方法)
  2. 数据清洗(异常值、缺失值处理,数据格式化【使得数据满足神经网络输入的要求,比如图片矩阵需要转化为特征向量】,数据标准化【将数据转化为均值为0、方差为1的分布】)
  3. 数据变换(数据归一化【使用转换函数将数据的值域变为[0,1],使得数据更加集中利于处理】,特征二值化,特征编码【如one-hot编码】)
  4. 特征离散化:将连续特征离散化到多个特征区间,通常是化为多个类别。
  5. 正负样本均衡(解决分类问题)

机器学习知识点全面总结-CSDN博客 引用一下:

其中,对于某些步骤解释:


特征离散化

特征离散化是将连续特征分割成多个离散的区间,这样可以降低过拟合的风险,使模型更加稳定。特征离散化的常见方法包括无监督方法和有监督方法,此外还有基于独立性和基于精确度的离散化。

无监督方法

无监督方法不利用目标变量的信息来划分特征区间,常见的无监督方法有:

  1. 分箱法:将连续特征等宽或等频地分割成若干个区间。例如,将年龄分成0-10岁、10-20岁等区间。
  2. 直观划分法:根据领域知识和经验直观地划分特征。例如,根据收入水平划分低、中、高收入区间。
  3. 基于聚类分析的离散化:利用聚类算法(如K-means)将连续特征划分成不同的类别。例如,将客户消费行为聚类成高、中、低消费群体。

无监督方法易于实现,但可能会将同一类别的不同实例分到不同的区间中,这会影响模型的效果。

有监督方法

有监督方法利用目标变量的信息来划分特征区间,常见的有监督方法有:

  1. 1R离散化:基于1R算法,通过简单的规则(如单一特征的最优分割)来进行离散化。
  2. 基于卡方的离散化:使用卡方检验来判断如何分割特征区间,使得每个区间内的实例尽可能相似(同属于一个类别)。
  3. 基于熵增益的离散化:通过计算熵增益来确定最优的分割点,使得分割后的区间信息增益最大。
  4. 基于Gini增益的离散化:利用Gini系数来衡量分割的纯度,选择使Gini增益最大的分割点。

有监督方法能够更好地利用目标变量的信息,使得离散化后的特征对模型更加有用。


正负样本均衡

正负样本均衡是解决分类问题中特别是在处理二分类问题时,正负样本数量不均衡的常见方法。样本不均衡会导致模型倾向于预测多数类,从而影响模型的性能。常见的用于正负样本均衡的方法包括以下几种:

1. 欠采样(Under-sampling)

采样方法通过减少多数类样本的数量来平衡正负样本。具体做法是随机删除一些多数类样本,使得多数类和少数类的样本数量接近。优点是减少了训练时间和数据量,但可能会丢失多数类的一些重要信息,从而影响模型性能。

2. 过抽样(Over-sampling)

抽样方法通过增加少数类样本的数量来平衡正负样本。常见的做法是对少数类样本进行复制或生成新的少数类样本。SMOTE(Synthetic Minority Over-sampling Technique)是一种常见的过抽样方法。过抽样可以保留多数类的全部信息,但可能会导致过拟合,因为少数类样本的重复使用会使模型对少数类样本过于敏感。

3. 算法调整(Algorithm Adjustments)

算法调整方法通过修改算法本身来处理样本不均衡的问题,主要分为以下两种:

a. 权重调整(Class Weighting)

在模型训练过程中,给少数类样本赋予更高的权重,使得模型在训练时更加关注少数类样本。许多机器学习算法,如SVM和神经网络,都支持样本权重调整。

b. 集成学习(Ensemble Learning)

集成学习通过结合多个基学习器来提升模型性能。针对样本不均衡问题,常用的方法是Bagging和Boosting。Bagging(如随机森林)可以欠采样、过抽样选择样本子集来缓解不均衡问题,而Boosting(如AdaBoost)可以通过调整权重,特别是对那些被错误分类的少数类样本给予更高的权重,从而提高少数类样本的预测能力。


三、特征工程

引用文章机器学习知识点全面总结-CSDN博客的内容:

特征过程的目的是为了获得更好的训练数据数据与特征决定了机器学习的上限,而模型和算法则是逼近这个上限。特征工程又分为特征抽取、特征选择和特征组合。

  1. 特征抽取侧重于从原始数据中生成新的有意义的特征。
  2. 特征选择侧重于从特征集中挑选最重要的特征,从而达到降低维度的效果,以简化模型。
  3. 特征组合侧重于将基本特征与新生成的特征进行组合,以增强模型的表达能力。通常是“基本特征+组合特征”兼顾了全局和个性化。对于线性学习器,特征组合可以很好地扩展大量数据,对于大规模数据集使用特征组合是学习高度复杂模型的一种有效策略。

下面讲一下特征组合:


特征组合

特征组合在机器学习中特别是在使用线性学习器(如线性回归、逻辑回归等)时,能够显著提升模型的表现。

为什么组合特征能够更好地学习复杂模型?

  1. 捕捉特征之间的相互作用:单个特征往往只能提供有限的信息,难以捕捉特征之间的相互关系。通过组合特征,可以显式地表示这些关系,使模型能够识别和利用这些相互作用。例如,在电子商务应用中,用户的购买行为可能不仅仅取决于用户的年龄和性别,还取决于年龄与性别的组合。这种特征组合是特征相互作用表现的方式。

  2. 增加模型的非线性能力:线性模型本质上是线性的,只能学习线性关系。通过特征组合,模型可以在一定程度上模拟非线性关系。例如,上面年龄与性别的组合,就是引入了一种非线性关系。

  3. 提高模型复杂度:通过特征组合,特征空间被扩展,使得模型可以变得更加复杂和表达能力更强。这对于处理复杂模式和多样化数据非常有用。模型的复杂度因为特征组合而提高了,也就相当于允许我们能够训练更加复杂的模型。

人为组合特征的挑战与必要性

  1. 主观性和专业知识:虽然特征组合具有一定的主观性,但这是基于对问题领域和数据分布的理解。例如,在金融数据中,某些特征的组合可能是显而易见的,如“收入-支出比”和“信用评分”的组合。因此,特征组合往往依赖于领域知识,能提供比自动化方法更有针对性的特征。

  2. 特征交互的自动化:尽管手动组合特征可能引入人为因素,但现在也有很多方法可以自动化这一过程,如基于决策树的算法(例如随机森林、梯度提升树)能够自动捕捉特征之间的复杂相互作用。

为什么特征组合对大规模数据集有效?

  1. 丰富特征空间:对于大规模数据集,原始特征往往不足以捕捉所有有用的信息。通过特征组合,可以大幅增加特征的数量和多样性,从而更好地描述数据,增加数据所携带的信息

  2. 提升模型性能:大规模数据集通常包含大量的样本,可以支持更复杂的模型。特征组合增加了模型的复杂度,使其能够更好地拟合大规模数据集中的复杂模式。

  3. 减少模型的欠拟合:特征组合通过增加特征的多样性和相互作用,可以减少模型的欠拟合风险,从而提高模型的表现。

特征组合能够更好地学习复杂模型的原因在于它可以显式地表示特征之间的相互作用,增强模型的非线性表达能力,提高模型的复杂度,从而更好地拟合数据。尽管特征组合有一定的主观性,但它能够通过结合领域知识和自动化方法来实现。在大规模数据集上,特征组合是一种非常有效的策略,能够显著提升模型性能。


四、算法模型

常用的算法模型有:逻辑回归、决策树、支持向量机、贝叶斯分类器、聚类算法、半监督学习、集成学习(Boosting、Bagging)、概率图模型、关联学习、强化学习等。


五、模型评估

进行模型评估的常见参数有:准确率、召回率、F-score、AUC、ROC、KS、support、MAE、MSE、RMSE、R2等。部分内容见文章一文记住什么是TP/TN/FP/FN?_tp fp tn fn分别代表什么-CSDN博客。其中,F-score作者有些忘记了,介绍一下:

进一步解释样本不均衡问题,假设正样本多,那么我总是预测结果为正时,我的FP很可能减少,因为我预测结果为正这件事错误的概率很小,所以精确率就会偏大;而我的FN很可能增大,因为我预测结果为负这件事错误的概率很大 ,所以召回率就会偏小。而F-score综合考察了FP和FN,也就是综合考察精确率与召回率,这样就会平衡在样本不均衡下可能出现的一个偏大另一个偏小的问题。(此外,准确率很好理解,如果在上面的情况下预测结果为正,那么准确率明显会偏大,因为本来正样本就比负样本要多得多)

  • 25
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Joy T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值