敏捷数据科学pdf_将敏捷应用于数据科学和数据运营的3种方法

敏捷数据科学pdf

几乎每个组织都在试图变得更加以数据为驱动力,希望利用数据可视化,分析和机器学习来获得竞争优势。 通过分析提供可行的见解需要强大的dataops程序来集成数据,并需要一个主动的数据治理程序来解决数据质量,隐私,策略和安全性。

提供数据操作,分析和治理是一个重要的工作范围,需要使利益相关者在优先事项上保持一致,实施多种技术,并召集具有不同背景和技能的人员。 敏捷方法可以形成工作流程,以帮助多学科团队确定优先级,计划并成功交付增量业务价值。

[ 也在InfoWorld上:如何在敏捷开发中解决数据和体系结构标准 ]

敏捷方法还可以帮助数据和分析团队捕获并处理来自客户,利益相关者和最终用户的反馈。 反馈应推动数据可视化的改进,机器学习模型的重新校准,数据质量的提高以及数据治理的合规性。

定义数据科学和数据操作的敏捷过程

将敏捷方法学应用于分析和机器学习生命周期是一个巨大的机会,但它需要重新定义一些术语和概念。 例如:

  • 敏捷数据科学团队可能由分析所有者(而不是敏捷产品所有者)领导,后者负责根据所提供的见解推动业务成果。
  • 数据科学团队有时会通过改进仪表板和其他工具来完成新的用户案例,但更广泛地说,他们提供了可行的见解,改进的数据质量,数据操作自动化,增强的数据治理和其他可交付成果。 分析所有者和团队应在积压中捕获所有这些可交付成果的基本要求。
  • 敏捷数据科学团队应该是多学科的,并且可能包括数据操作工程师,数据建模人员,数据库开发人员,数据治理专家,数据科学家,公民数据科学家,数据管理员,统计学家和机器学习专家。 团队构成取决于工作范围以及所需数据和分析的复杂性。

敏捷的数据科学团队可能会从事多种类型的工作。 这是应填补积压和冲刺承诺的三个主要方面。

1.开发和升级分析,仪表板和数据可视化

数据科学团队应构想仪表板,以帮助最终用户回答问题。 例如,销售仪表板可能会回答以下问题:“在过去90天内,哪些销售代表的销售活动最多? 敏捷软件开发团队的仪表板可能会回答:“在过去的三个版本中,该团队在提供功能,解决技术问题和解决生产缺陷方面的生产力如何?”

敏捷的用户故事应解决三个问题 :最终用户是谁? 他们想解决什么问题? 为什么这个问题很重要? 问题是编写提供分析,仪表板或数据可视化效果的敏捷用户故事的基础。 问题可以解决打算使用仪表板的人员以及他们需要的答案。

然后,当利益相关者和最终用户提供答案的假设以及他们打算如何使结果可行时,它会提供帮助。 洞察力如何变为可操作的,及其对业务的影响,有助于回答敏捷用户故事应解决的第三个问题(问题为何如此重要)。

Tableau或Power BI仪表板的第一个版本应该是“最小可行的仪表板”,足以与最终用户共享以获取反馈。 用户应让数据科学团队知道仪表板能够很好地解决他们的问题以及如何进行改进。 分析产品所有者应将这些增强功能放在待办事项上,并考虑在未来的sprint中优先考虑它们。

2.开发和升级机器学习模型

开发分析和机器学习模型的过程包括对数据进行分段和标记,特征提取以及通过多种算法和配置来运行数据集。 敏捷数据科学团队可能会记录敏捷用户故事,以准备用于模型开发的数据,然后为每个实验创建单独的故事。 透明性可以帮助团队审查实验结果,确定下一个优先级,并讨论方法是否正在收敛于有益结果。

可能会有不同的用户案例将模型从实验室移至生产环境。 这些故事是用于数据科学和机器学习的内容 ,并且可能包括脚本基础结构,自动化模型部署以及监视生产过程。

一旦模型投入生产,数据科学团队就有责任维护它们。 随着新数据的涌入,模型可能会偏离目标,并需要使用更新的数据集进行重新校准或重新设计。 来自Twitter和Facebook等公司的高级机器学习团队实施持续培训,并使用新的培训数据重新校准模型。

3.发现,集成和清理数据源

敏捷数据科学团队应始终寻找新的数据源,以整合和丰富其战略数据仓库和数据湖。 一个重要的例子是市场部门使用的SaaS工具中孤立的数据来达到潜在客户或与客户沟通。 其他数据源可能会提供有关影响购买决策的供应链,客户人口统计信息或环境环境的其他观点。

分析师所有者应使用故事卡填充敏捷的积压订单,以研究新的数据源,验证样本数据集并将优先级排序的数据集集成到主要数据存储库中。 当敏捷团队集成新数据源时,团队应该考虑自动化数据集成,实施数据验证和质量规则,以及将数据与主数据源链接。

Talend产品营销副总裁Julien Sauvage提出了以下建立数据源信任的准则。 “如今,公司需要对他们的报告和仪表板中使用的数据更有信心。 通过基于数据质量,数据受欢迎程度,合规性和用户定义的等级的内置信任分数可以实现。 信任分数使数据从业人员可以实时查看数据清理任务的效果,从而可以迭代地解决数据质量问题。”

数据科学团队还应该捕获数据债务并确定其优先级。 从历史上看,数据源缺乏所有者,管家和数据治理实施。 如果没有适当的控制,许多数据输入表单和工具将没有足够的数据验证,并且集成数据源也没有清理规则或异常处理。 许多组织在分析和数据可视化中使用的数据仓库和湖泊中堆积着大量脏数据。

就像没有解决技术债务问题的快速解决方案一样,敏捷数据科学小组也应该迭代地确定优先级并解决数据债务问题。 当分析所有者添加用于交付分析的用户案例时,团队应审查并询问必须在积压订单上列出哪些基础数据债务并确定优先级。

用敏捷方法实施数据治理

我分享的所有示例均有助于数据科学团队提高数据质量并提供用于在决策,产品和服务中利用分析的工具。

在积极主动的数据治理计划中,围绕数据策略,隐私和安全性的问题将得到优先处理,并与交付和改进数据可视化,分析,机器学习和数据操作的工作并行解决。 有时,数据治理工作属于数据科学团队的职责范围,但通常情况下,由单独的小组或职能部门负责数据治理。

组织对分析和数据治理法规,合规性以及不断发展的最佳实践的竞争需求不断增长。 应用敏捷方法为组织提供了完善的结构,流程和工具,可以对数据驱动的影响进行优先级排序,计划和交付。

翻译自: https://www.infoworld.com/article/3562346/3-ways-to-apply-agile-to-data-science-and-dataops.html

敏捷数据科学pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值