机器学习建模流程 day02

机器学习建模流程通常可以分为以下几个主要步骤:

  1. 问题定义与数据收集:

  1. 确定问题的类型(分类、回归、聚类等可见上篇所讲内容)和目标。
  2. 收集相关数据,可以是从数据库、API、文件或其他来源获取。

注释:

数据库是计算机里面的存储的数据的,当然可以对数据进行一些操作增删改查,通常用于存储大量结构化数据,并提供高效的数据操作和查询功能。

API(Application Programming Interface,应用程序编程接口)是一组定义软件和服务之间交互的规则集合。它允许不同的软件应用程序之间相互通信、交换数据,或者让开发者利用预先定义好的功能来构建应用程序。API广泛应用于软件开发中,使得开发者可以利用现有的功能和服务来加速开发过程,避免重复造轮子。就类似于调用“函数”,方便操作,但是这个“函数”是网络上能直接调用过来的的一些比较实用的功能。

  1. 数据预处理与探索性分析:

  1. 清洗数据:处理缺失值、处理异常值、数据转换等。
  2. 探索性数据分析(EDA):可视化数据分布、相关性分析、特征重要性等。

注释:

缺失值(Missing Value)就是一些数据集里面的一些内容丢失或者未记录。

如何处理缺失值:

  • 删除含有缺失值的样本或特征:如果缺失值占比较小,可以选择删除含有缺失值的数据行(样本),或者整列(特征)。
  • 填充缺失值:填充缺失值可以采用平均值、中位数、众数等统计量来代替缺失值,或者使用插值方法如线性插值(就是找到左边和右边的点进行直线求斜率找到中间这个点)或者机器学习模型来预测缺失值。
  • 特殊值标记:有时候可以用特殊的数值(如-999或NaN)来标记缺失值,以便后续处理。
  • 模型集成方法:在机器学习中,可以使用模型集成技术(多个单独模型预测结果结合起来;集成模型的方法可以自己索引一下,我也会出一期讲解一下)来处理缺失值,让模型自动学习如何处理缺失数据。

  1. 特征工程简略

  1. 特征选择:选择最相关的特征。
  2. 特征转换:对特征进行编码、标准化或归一化等处理。
  3. 特征生成:创建新的特征以增强模型性能。

  1. 数据集划分:

  1. 将数据集划分为训练集(主要数据集;占比大;70%到80%)、验证集(调整模型的超参数和评估不同模型之间的性能;10%到15%)和测试集(最终评估模型的性能,10%到20%)。

注释:超参数(Hyperparameters)是机器学习算法中需要手动设定并调整的参数,不能通过训练过程自动学习得到;示例:学习率、树的深度、正则化参数、神经网络的隐藏层节点数等。与之相对的是模型参数(Model Parameters),模型参数是模型在训练过程中学习得到的,用于描述数据的特征或关系;示例:线性回归中的权重和偏置、神经网络中的权重。

  1. 选择模型:

  1. 根据问题类型和数据特征选择合适的机器学习模型(后续讲解)(如决策树、支持向量机、神经网络等)。

  1. 模型训练:

  1. 使用训练集训练模型,调整模型参数以提高性能。

  1. 模型评估:

  1. 使用验证集评估模型性能,选择合适的评估指标(如准确率精确率召回率F1-score等)。

注释:

准确率(Accuracy)是衡量分类模型预测正确性的指标,它表示模型正确预测的样本数占总样本数的比例。

精确率Precision衡量了模型预测为正例的样本中,有多少是真正例。

回率(Recall)是在信息检索和统计学中用于衡量分类模型效果的重要指标之一。它衡量了模型能够识别出的正例(真正例)在实际正例中的比例。

F1-score(F1值)是综合考虑了精确率和召回率两个指标的一种度量方式,常用于评估二分类模型的性能优劣。

  1. 模型调优:

  1. 调整模型超参数以优化模型性能,可以使用交叉验证等技术。

注释:

交叉验证(Cross-validation)是一种用来评估模型泛化能力的统计学方法,常用于机器学习和统计建模中。目的是评估模型在新数据上的表现,而不仅仅是在训练集上的表现。它通过将数据集分成多个子集(folds),重复训练模型多次,并对不同的子集进行测试来完成这一过程。n-1 个子集作为训练集,剩下的一个子集作为验证集。

  1. 模型验证与部署:

  1. 使用测试集验证最终模型的泛化能力
  2. 如果模型表现良好,可以部署到生产环境中使用。

注释:

泛化能力(generalization ability)指的是机器学习模型对未见过的数据的适应能力或表现能力。泛化能力简单来说就是模型学到的知识有多适合处理它以前没见过的情况。例如:数据集里没有出现的数据样本,这个模型能不能判断这个数据样本。

  1. 模型监控与维护:

  1. 定期监控模型性能,处理数据漂移模型退化等问题。
  2. 根据需要更新模型或重新训练模型。

注释:

数据漂移(Data Drift)是指在机器学习模型部署后,输入数据的分布发生变化,导致模型的性能下降的现象。

模型退化(Model Degradation)通常指的是机器学习模型在实际应用中性能下降的现象。数据漂移就是一种影响因素。

这些步骤构成了一个基本的机器学习建模流程,具体的实施可以根据具体问题和数据特征进行调整和扩展。

  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值