数据建模的基本流程

数据建模的基本流程主要包含六个步骤:确定分析目标、数据理解、数据准备、建立模型、模型评估、模型发布与应用。

数据建模是以业务为驱动,基于数据构建科学模型应用于实际中去解决问题的过程。这个过程并不以模型构建、或者模型落地就终止的,而是随着业务在不断地循环改进的。我参考了跨行业数据挖掘标准流程 CRISP-DM 和个人的一些拙见,对数据建模的六个环节进行整理,具体如下:

在这里插入图片描述

1.确定分析目标
一切分析的开始都是要基于明确的分析目标,不论何种业务场景,在分析前都需要了解好业务背景、业务需求,明确这次分析是为了解决什么业务问题,分析工作的最核心的需求是什么。如何理解业务需求可以做好以下两点:

与相关进行需求讨论,内容围绕业务逻辑、需求合理性、可行性等方面进行。

确定好分析需求后,指定分析框架和项目计划表。分析框架主要包括:目标变量的定义,大致的分析思路,数据抽样规则,潜在自变量的罗列,项目风险评估,大致的落地应用方案。

2.数据理解
数据理解阶段的重点是放在数据采集获取上。在工作中就是常说的“提数”,这个过程可以进行一系列的数据探索和熟悉,识别数据质量问题,发现数据的内部属性等,可以初步形成一些对数据的假设。

提数是数据建模的基础工作,也是影响模型输出结论的最重要的一步。如果源数据就错了,就不要想分析结果是对的。所以常常会有人说,数据分析工作其实是需要花大概80%的时间在数据上的。

在提数的过程中,需要注意:

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
scikit-learn(sklearn)是一个常用的Python机器学习库,它提供了丰富的算法和工具来进行数据预处理、特征工程、模型选择和评估等任务。下面是sklearn建模的基本流程: 1. 数据预处理:将原始数据转化为可用于建模的数据格式,包括数据清洗、数据变换、特征提取等。 2. 数据划分:将数据集划分为训练集和测试集,其中训练集用于训练模型,测试集用于评估模型的性能。 3. 特征选择:确定哪些特征能够更好地用于建模,可以根据特征的相关性、重要性等指标来进行选择。 4. 模型选择:选择合适的模型来对数据进行建模,可以根据数据类型、问题类型、模型复杂度等因素来进行选择。 5. 模型训练:使用训练集对模型进行训练,不断调整模型参数以使模型的预测能力更好。 6. 模型评估:使用测试集对模型进行评估,可以使用各种评估指标来评估模型的性能,比如准确率、召回率、F1值等。 7. 模型优化:对模型进行优化,可以使用特征工程、模型调参等方法来提高模型的预测能力。 8. 模型应用:使用训练好的模型对新数据进行预测,可以使用训练好的模型对新数据进行分类、回归、聚类等任务。 以上就是sklearn建模的基本流程,不同的问题和数据类型可能会有不同的建模流程,但是这个流程可以作为一个基础框架来进行建模。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值