数据建模步骤

 

数据建模,通俗地说,就是通过建立数据科学模型的手段解决现实问题的过程。数据建模也可以称为数据科学项目的过程,并且这个过程是周期性循环的。

数据建模的具体过程可分为六大步骤,如下图所示:

一、制订目标

制订目标的前提是理解业务,明确要解决的商业现实问题是什么?

如:电商平台用户评价的情绪分类。

二、数据理解与准备

基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:

  1. 需要哪些数据指标(特征提取)
  2. 数据指标的含义是什么?
  3. 数据的质量如何?(是否有缺失值)
  4. 数据能否满足需求?
  5. 数据还需要如何加工?(如:数据指标装换,标签化)
  6. 探索数据中的规律和模式,进而形成假设。(模型选择)

需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推翻,这时一定要静心钻研,不断试错。

数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。

三、建立模型

在准备好的数据基础上,建立数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等高深的算法。选择什么样的模型,是根据要解决的问题(目标)确定的。

当然可以选择两个或以上的模型对比,并适当调整参数,使模型效果不断优化。

四、模型评估

模型效果的评估有两个方面:一是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);二是模型的精确性(误差率或者残差是否符合正态分布等)。

 

五、结果呈现

结果呈现主要关注以下三个方面:

  1. 模型解决了哪些问题?
  2. 解决效果如何?
  3. 如何解决问题?具体操作步骤是什么?

六、模型部署

通过大量数据解决了一个或多个重要的现实问题,需要将方案落实下去,一般情况下需要通过线上技术环境部署落实,从而为后面不断优化模型、更好地解决问题打下基础。

交由工程人员部署技术环境,需要数据建模团队撰写需求文档,并确保工程人员理解需求文档的内容,才能达到较好的模型部署效果。

 

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值