数据建模必知的六大步骤

前言

转载自:知乎 - https://zhuanlan.zhihu.com/p/88366912

数据建模必知六大步骤


数据建模,通俗地说,就是通过建立数据科学模型的手段解决现实问题的过程。数据建模也可以称为数据科学项目的过程,并且这个过程是周期性循环的。

数据建模的具体过程可分为六大步骤,如下图所示:
在这里插入图片描述

一、制订目标

制订目标的前提是理解业务,明确要解决的商业现实问题是什么?

如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是一个要解决的现实问题。

二、数据理解与准备

基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:

需要哪些数据指标(即特征提取)?(如:哪些指标能区别真粉和假粉?)
数据指标的含义是什么?
数据的质量如何?(如:是否存在缺失值?)
数据能否满足需求?
数据还需要如何加工?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)探索数据中的规律和模式,进而形成假设。

需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推翻,这时一定要静心钻研,不断试错。

数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。

三、建立模型

在准备好的数据基础上,建立数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等高深的算法。选择什么样的模型,是根据要解决的问题(目标)确定的。

当然可以选择两个或以上的模型对比,并适当调整参数,使模型效果不断优化。

四、模型评估

模型效果的评估有两个方面:

  • 一是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);
  • 二是模型的精确性(误差率或者残差是否符合正态分布等)。

如:在识别KOL假粉的问题中,需要评估的是:

模型能否识别出假粉?识别的误差率是多少?粉丝识别误差率=(假粉误认为真粉的数量+真粉误认为假粉的数量)/总粉丝数

五、结果呈现

结果呈现主要关注以下三个方面:

模型解决了哪些问题?解决效果如何?如何解决问题?具体操作步骤是什么?

六、模型部署

通过大量数据解决了一个或多个重要的现实问题,需要将方案落实下去,一般情况下需要通过线上技术环境部署落实,从而为后面不断优化模型、更好地解决问题打下基础。

交由工程人员部署技术环境,需要数据建模团队撰写需求文档,并确保工程人员理解需求文档的内容,才能达到较好的模型部署效果。

  • 2
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘与分析 作者:林文渊 来源:《新课程·教研版》2011年第17期 摘 要:近年来,数据挖掘引起了社会各界特别是信息产业界的极大关注,其主要原因是在 统计学和数据库知识高速发展的今天,以前积累了大量数据,迫切需要将这些数据转换 成有用的信息和知识。通过数据挖掘技术获取的信息和知识可以广泛用于各个领域,包 括商务管理、生产控制、市场分析、工程设计和科学探索等。 关键词:数据挖掘;数据仓库;直接数据挖掘;间接数据挖掘 一、数据挖掘的定义 数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,简称为KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤 。换言之,就是从存放在数据库、数据仓库或其他信息库中大量的数据中获取有效的、 新颖的、潜在有用的、最终可理解的模式的非平凡过程。 二、数据挖掘的关键步骤 1.挖掘 把潜在的不明确数据关系的数据提取并转化为数学问题。这一的结果只是表 明数据之间有关系,但是具体是什么关系仍然不明确。 2.建模 把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间 的内在变化规律由数学符号与数学结构表示出来。 三、数据挖掘分类 1.直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,即一个特定的 变量进行描述。 2.间接数据挖掘 目标中没有选出某一具体的变量,而是在所有的变量中建立起某种关系。 四、数据挖掘技术实现 在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据 的展现等关键技术。 1.数据的抽取 就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过 抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓 库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处 理。 2.数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外 部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的 推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、 如何并行处理大量的数据、如何优化查询等。 3.数据的展现 主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能 查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视 化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机 动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方 差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据 关系和模式的识。 五、数据挖掘与数据仓库融合发展 数据挖掘和数据仓库的协同工作,一方面可以迎合和简化数据挖掘过程中的重 要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性;另 一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。 数据挖掘和数据仓库是融合与互动发展的,具有广泛的应用空间和丰富的学术 价值。简而言之,掌握数据挖掘和数据仓库技术可以使我们从数据库的"奴隶"变成数据 库的"主人"。 六、数据挖掘在各领域中的应用及发展前景 当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生 物、天体、化工、医药等方面。专家也指出,数据挖掘会成为未来十年内重要的技术之 一。而数据挖掘,也已经开始成为一门独立的专业学科。 具体发展趋势和应用方向主要有:对知识发现方法的研究进一发展,如对Ba yes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的 整体系统。 数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就现有情况而言, 还有至少二十年的发展空间。 参考文献: [1]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版 社,2010. [2]希赛IT发展研究中心.SQLSEVER数据库系统开发[M].北京:电子工业出 版社,2009. [3]邵维忠,杨芙清.面向对象的系统分析[M].北京:清华大学出版社,19 98. [4]朱耀明,宗刚.财政与金融[M].北京:高等教育出版社,2002. [5]吴伟民.数据结构[M].北京:清华大学出版社,1999. 作者简介: 林文渊,工程师,就职于厦门软件职业技术学院,主要从事计算机与游戏开发 方面的教学工作。 (作者单位 上海同济大学软件工程学院) ----------------------- 数据挖掘与分析全文共3页,当前为第1页。 数据挖掘与分析全文共3页,当前为第2页。 数据挖掘与分析全文共3页,当前为第3页。
六大步骤排序: a. 导入数据 b. 横切一刀 首先,我们需要导入数据。导入数据是数据分析的第一,它涉及到从不同的数据源中获取数据,并将其导入到所使用的数据分析工具中,如Excel、Python等。导入数据可以通过拖拽文件、导入数据库或者使用API等方式进行。 然后,我们可以进行数据的预处理和清洗操作。这包括处理数据中的缺失值、异常值、重复值等,以确保数据的质量和准确性。预处理和清洗数据是为后续的分析步骤做好准备工作。 接下来,我们可以进行数据探索性分析。这一步骤旨在通过统计分析和可视化手段,对数据的特征和规律进行探索。主要包括计算统计指标、绘制图表、构建模型等,以揭示数据中的隐藏信息和规律。 在数据探索性分析的基础上,我们可以进行数据建模和分析。这包括使用各种统计分析技术,如回归分析、聚类分析、决策树等,来对数据进行建模和分析。通过建模和分析,我们可以得出对数据进行预测、分类、聚类等结论。 然后,我们可以对分析结果进行解释和评估。这一步骤涉及对模型的解释和评估,以确保模型的可靠性和准确性。同时,我们还可以根据业务需求对结果进行解读和解释,以对决策提供支持。 最后,我们需要将结果可视化和传达给相关的利益相关者。通过可视化手段,如制作报表、绘制图表等,我们可以将分析结果以易于理解的方式呈现出来,并与他人进行沟通和分享。这有助于促进决策的制定和实施。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值