送5本新出版数据运营书籍

文末赠书

DataOps是什么?

随着数据科学与分析技术的成熟,许多其他行业从业者也面临着和数据科学与分析类似的挑战,他们需要尽可能高效地增加价值,同时还要处理高度复杂的问题。最适用的两种应用是制造业和软件开发,它们创造了革命性的方法,如精益制造、敏捷开发和DevOps,可供数据科学与分析专业人士采用。

出于必要性考虑,2017年,笔者决定测试一种不同的方法来帮助企业提供数据驱动的个性化,这已成为一项关键的营销策略,但企业希望快速看到结果以证明进一步投资的合理性。在一家互联网公司的工作经历使笔者熟悉了同事们在软件开发、产品工程和产品管理方面使用的许多概念和方法,这些概念和方法可以快速将想法转化为最小可行产品(MVP),然后随着时间的推移进行迭代优化。因此,笔者决定将这些方法应用于面向客户提供个性化体验所需的数据和机器学习模型生命周期。

      第一步是与营销团队密切合作,就项目目标达成共识并优先考虑要测试的假设条件。接下来,笔者和营销团队确定了实现目标所需的数据产品,如机器学习特征数据集、机器学习模型和仪表板,以衡量实验结果。新研发的模型帮助他们收集了来自外部客户的重要反馈。

在这个阶段,整合数据、构建模型和部署模型仍然是一个“绳子和胶带”的过程,因此有必要增加数据工程团队的参与程度。他们利用自己的技能来提高数据可用性、监控数据质量、自动化和加速大部分数据管道、重构数据转换以提高效率和可重用性,并对机器学习输出结果和下游平台进行严格测试和集成。

      接下来是一段持续改进的时期,因为实验的测量结果为他们提供了关于假设的具体反馈以及与其他团队合作整合的数据,这非常有利于后续测试。此外,对整个数据周期的分析确定了那些需要消除的瓶颈,以及需要与数据工程和技术团队解决的质量问题。

      结果大大超出预期。在3个月内,开发新的机器学习模型和分析实验所需的时间大大缩减。更重要的是,在6个月内,对客户和收入KPI的影响非常有效。如果继续采用零碎的项目优先顺序和交付方法,可能需要花费相当长的时间才能实现预期的成果。不知不觉地,他们意外开始了DataOps 驱动的数据科学之旅。

      DataOps 这个名字是 Data and Operations (数据和操作)的合成词,由莱尼·利伯曼(Lenny Liebmann)在2014年的一篇题为《DataOps对大数据成功至关重要的三个原因》的博客文章中首次介绍。然而,直到安迪·帕默 (Andy Palmer) 2015 年在博客中发表《从 DevOps 到 DataOps》一文后,这个词才得以普及。从那时起,人们对 Gartner 2018 年数据管理的“炒作周期”越来越感兴趣。

      作为一种相对较新的方法,DataOps 以及该领域的许多其他术语可以用不同的方式定义。Gartner 将 DataOps 狭义地定义为一种数据管理实践:

  ……一种协同式的数据管理活动,侧重于提升整个组织中数据管理者和数据使用者之间围绕数据流的沟通、集成和自动化水平。DataOps的目标是实现数据、数据模型以及相关数据产品的按期交付和变更管理。DataOps运用技术手段统筹和自动化数据生产过程,保障数据安全,让质量和元数据达到适当的水平,从而在动态环境中提升数据的使用价值。 

      DataOps 中的“Ops”是一个重要的提醒,我们必须超越数据管理和数据分析的范围,思考如何提供数据和输出结果。实际上,数据交付和数据管道也只是涉及多个团队的大型数据应用程序的一个组成部分。因此,DataOps 必须包含应用程序用例,从数据获取使用的整个数据生命周期中涉及的每个团队,以及最终结果(如果要带来许多好处)。出于这个原因,笔者更喜欢 DataKitchen所描述的基于传统概念的DataOps定义,即数据分析、精益思维、敏捷实践和DevOps文化的结合:

● 敏捷实践确保我们致力于“正确的事情”,为“正确的人”增加价值。

● 精益思维侧重于消除浪费和瓶颈、提高质量、监控数据流,并使数据对消费者来说更方便。

●  DevOps 实践是在原来彼此孤立的团队之间建立协作文化。这些实践使数据分析团队能够通过整个数据生命周期中的自动化流程更高效地工作,从而更快、更可靠地交付数据产品。

      DataOps 旨在通过数据用例使多个数据消费者受益,从简单的数据共享到由 Gartner 提出的描述性、诊断性、预测性和规范性四个层次的全方位数据分析过程。它让具有数据分析、数据科学、数据工程、DevOps技能和业务线专业知识的独立团队紧密协作在一起。

      将DataOps应用于数据科学的目标是通过快速、可扩展和可重复的过程,将未处理的数据转化为有用的数据科学产品。这些产品将数据科学融入服务或产品的运营过程中。无论是谷歌地图查询路线还是奈飞产品推荐,我们每天都会多次成为数据产品的客户。这不是个一次性的项目。数据科学的产品处于持续监控、基于实验的迭代以及不断根据反馈进行改进的生产过程中。它有一个所有者,是可复制的,并解决了一个最终目标。用户和机器可以通过多种方式与数据科学产品交互,例如 API、可视化,甚至是Web或手机应用程序界面。

DataOps不是什么?

除了了解DataOps是什么,还必须了解DataOps不是什么:

● DataOps借鉴了敏捷软件开发、精益制造和 DevOps 的最佳实践,但不是直接复制它们。一个根本的区别在于,在软件开发中,重点是在每个阶段部署的应用程序代码,而在数据科学与分析中,重点是每一步的代码和数据。通常,与用于转换和建模数据的程序代码相比,数据本身的复杂性要大得多。因此,DataOps 专注于从数据获取到销毁,从业务问题定义到模型退役过程的数据、信息和模型的全生命周期管理。

● DataOps 非常适合通过机器学习提供端到端的决策制定。但是,该方法不限于机器学习和数据科学。任何基于数据产生数据产品的工作都可以从中受益。

●DataOps 不是可以从供应商处购买或从GitHub复制的产品。与 DevOps 一样,其成功实施更多是关于协作、组织变革和最佳实践,而不是技术。

● DataOps 不会将您绑定到特定的语言、工具、算法或软件库。由于技术和算法的快速进步和不断变化,也不可能规定使用哪些特定的服务和软件。然而,某些解决方案确实比其他解决方案能更好地支持 DataOps,并有一些指导如何选择的原则。

●DataOps 不会代替数据本身具有的洞察力。在诸多方面,DataOps 方法通过加快提供高质量数据,使数据洞察力变得更加容易和快速。然而,它确实使数据产品的定制研究和自动化生产之间的区别更加明显。这一区别使得对于任何给定的资源水平,人们都能够有意识地在两者之间进行投资权衡。

●DataOps 不限于“大数据”(尽管在一般说法中,该术语通常与数据分析同义),并且与所用数据的大小和复杂性无关。拥有任何数据规模的组织都可以在提高数据分析速度、可靠性和质量的方法中受益。

来源:本文节选自《Dataops实践手册:敏捷精益的数据运营》

说明:由机械工业出版社出版,未经许可,禁止转载。

  • 《DataOps实践手册:敏捷精益的数据运营》

点击图书封面购买

 
 
粉丝福利

如何获得书籍?

因为公众号回复抽奖有职业羊毛党专门撸书,所以峰哥决定在朋友圈让大家参与,一方面限制羊毛党,另外一方面也能控制参与人数,让大家中奖几率更大。

bfddac379cff22839f4e399c09c005ea.jpeg

已经加我微信的同学,我会将抽奖链接发到朋友圈里,大家记得及时参与。不是我好友的,可以添加下方微信,备注【书籍】我会通过,通过之后大家直接去朋友圈参与即可。

▲添加上方二维码好友▲

备注「书籍」,参与抽奖

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值