写给大数据从业者:数据科学的5个陷阱与缺陷

导读: 这篇分享主要总结了数据从业人员在实践中可能遇到的陷阱与缺陷。跟其他新起的行业一样,数据科学从业人员需要不停的去考虑现在,考虑未来;需要不断的斟酌工作方法的合理性,正确性。思索不断,才能前行。

作者注:文中标注蓝色字体表明该内容具有比较强烈的主观判断,并不是行业共识。

最近看新闻,发现数据科学专业已经是北京大学高考入学门槛最高的专业了,其实"Data Science" 这个词性感了快十年了,对互联网行业而言,相当于性感了一个世纪。

从“数据说话”,”DT 时代”,到 “数据中台”,“数据驱动(Data Drive/Data Driven)”,数据体系的不断演进正在持续的改变大家的工作与决策方式;正在不断的革新大家的思维方式;同时也产生了新的商业逻辑,新的发展机会。

1976 年,Pascal 作者 Nikalus Wirth 曰:Algorithms + Data Structures = Programs.

就像之前的“SOA”,“云计算”等概念一样,目前数据科学自身的概念还在不断的变革,各家公司的实践者们一边摸索,一边获利;一边总结,一边布道;当然同时还参杂着很多凑热闹的同志把概念折腾的更加模糊。所以数据科学本身的能力边界,方法论体系,最佳实践等等还没有完善的建立起来,有很多问题没有办法很好的回答。由此就会产生一些迷信和误会,”强行数据“,”随意数据“,”政治正确数据“等等情况比较常见, 无论是实际的操作层面,还是方法层面,都存在着一些不小的误会。这也是我打算总结一下在数据科学实践中存在的陷阱与缺陷的缘由。

这篇分享是根据我自己的工作经验,和对相关资深同事的访谈总结而成。它的正确性受限于我个人的认知水平和目前行业的发展水平,它整理了一些目前可能存在的问题,但未必是长久的道理。希望大家读的时候批判性的看待。抛砖引玉,如果有不同想法欢迎大家跟我随时沟通与验证,结论本身也可以随时更新。

陷阱与缺陷 1:数据质量杀死自动 / 智能决策

网易严选的很多业务,比如风控业务,核心驱动力是数据及算法。我们在风控业务起步的时候就建立了数据算法驱动风控的方法体系,所以能保证很小的团队(3 个人)来支撑严选几十个内外部风险场景,每天执行百万次风险决策。当然,这是数据驱动自动决策 / 智能决策带来的力量。成功的美好,或许会让你按耐不住的想把很多业务运转方式转型过来,但遗憾的是,数据质量保障的缺失会让这一切变成随时会倒塌的空中楼阁!事实上,绝大部分组织对数据质量的理解 支撑不了更加自动和智能的决策场景。强行转型与减员增效会让他们原本稳定的业务接近崩溃。

严选风控出现过几次大的故障都跟数据质量紧密相关。今年 8 月份的时候,风控在执行每周误判巡检的时候发现整体疑似误判率增加了 4 倍。最终定位原因是设备号相关的日志内容有些异常。从而导致了相当一部分用户的行为(签到操作)被错误的执行了拦截。

这是一个很有意思的案例。一些关键的决策:比如用户是不是坏人?某个商品要采购多少量?可能会依赖于很不被重视的某个线上日志的一小部分内容。我们的整个质量保障体系很难把视角投入到某个具体应用的某个日志字段在高压力下会不会出错?在传统的应用服务质量保障理念里,日志字段的某个偶尔的小错误,没人会把它当作 Bug,开发人员更不会去关注。但如果你一旦把 数据当作了生产资料如果我们不对应用质量保障的理念和工具进行革新,你的大量的数据分析报告,训练好的算法模型,做出的决策可能很不可靠,因为你的生产资料本身就是垃圾,而古语有言:Garbage in , garbage out。

还有一个惊人的现状是,大量用于生产数据的复杂 SQL 并没有进行真正的测试,甚至,大量的数据系统并不存在一个所谓的测试环境。我们很难像测试线上服务(比如订单系统)那样去测试数据生产过程的正确性。那么这样通过几万行,甚至几十万行(严选)SQL 生产出来的数据到底能不能用?这个问题其实很难回答。

数据的可靠性是组织在转型数据驱动过程中一个非常大的陷阱。

大家都在讨论数据质量的重要性,但是内心又默默觉得这个事情比较低级。因此,我们很少见到有团队会把大量聪明的大脑投入到数据质量的保障上。

除了资源投入的缺失,很多数据团队对数据质量的认知也是各不相同。我曾经跟一位在数据行业从业 15 年,为某知名公司数据体系做出巨大贡献的前辈做过一次深入的沟通,聊起数据质量,”你觉得数据质量是什么?“ 他的回答是:“数据质量,真正需要考虑的是指标一致性。”。瞧瞧,就算是非常资深的同行,他的认知还是不够完整,按他对数据质量的理解,数据的支撑能做到报表给人看,这个层面就很完美了,要落地到战术层,落地到线上自动决策基本不可行(因为数据质量的故障难以像线上程序故障一样快速修复,它是一个持续污染的过程)。

数据做为智能决策的输入,是动态变化的。它没法像代码的依赖那样做静态分析,它的依赖层次动态而不稳定。

陷阱与缺陷 2: 数据科学的"科学”在哪?

数据科学是我们常常说起的一个词,也是形容我们日常工作的一个词,但当我们说起的时候,内心就会有些心虚,就光看到数据了,“科学”在哪里?如果没有”科学“的部分,我们的产出的结论会不会有问题?

这是一个最常见的问题,数据科学的从业者们,不知道什么是”科学“。所以江湖上才会有 SQL Boy, SQL Girl 的称呼。

一个常见的问题是数据指标之间的相关性到底是不是真的相关?我们做数据分析往往能看到很多有趣的相关性,比如最近几个月买了拖鞋的用户,看起来有更大的可能性在最近一个月复购另外一个商品。但是,这个相关性到底是不是真的存在,还是只是偶然的巧合(False Postive)?我们的分析报告很容易对这个问题视而不见。但如果这个相关性本身经不起推敲,它又如何来指导我们的工作呢?数据分析报告难道要靠运气来驱动业务发展么?

就算我们有不错的统计基础,给每个假设都加上了 P Value, 我们往往还很容易把相关性与因果性给搞混。两个事情相关,并不能得出结论说他们之间互为因果。我们需要通过因果分析的方法,为数据之间的相关性提出符合业务逻辑和商业逻辑的解释。

如果数据分析遗漏了因果分析这个过程,就会得出一些奇怪的结论。比如,我们发现较大的用户,买的鞋子一般也是大号。如果缺乏基于业务逻辑的因果分析我们可能会这样指导运营工作:为了让用户的脚变大,我们应该多卖大号的鞋子给他们。

但有的时候,我们很难直接的分析出数据之间的因果关系,很难直观的得出结论,这个时候,我们需要借助科学实验,帮我们更深入的理解我们的业务。

如何去做科学实验,我结合滴滴谢梁大神的观点(谢梁,数据科学中的“科学”),总结如下

  • 通过对数据的敏锐度和业务的熟悉程度,发现和定义问题;
  • 提出结构化,可量化的假设;
  • 设计验证实验。科学与实验是紧密关联的。在严选和很多公司,我们往往利用实验来判断方案的好坏。但是,其实实验更多的是用于帮助我们验证假设,帮我们更加深入的理解我们的用户(著名实验公司今天头条 CEO 说: 更多的时候,AB 测试帮助我们理解用户,而不是帮助我们决策)。设计一个好的实验,并不容易,需要根据假设梳理出要验证的指标,样本集,可控制的因子(往往是流量)。设计实验,需要极强的专业性。
  • 收集与分析数据。分析数据并不仅仅是直观的去看趋势的高低。分析数据首先需要对业务的主要指标及其相关性有清晰的概念,需要把指标之间的相关因子量化,甚至可计算。 我认为是先有结构化、系统化、量化的体系,再有数据分析。所幸的是,结构化的体系我们可以用系统和服务来支撑。 我们团队今年主要在设计与研发的 DIS 系统严选数据智能平台),一个主要目标就是解决这个问题。
  • 分析人员需要专业的量化分析能力、统计学能力。
陷阱与缺陷 3: 操纵,误导,数据的民主化不足

数据民主化在国外的数据社区讨论的很多,国内聊的比较少。数据科学家们通过黑魔法制造出一些模型来,然后告诉业务同学该怎么决策,告诉高层业务指标完成的好不好。数据的能力被限制在某一个专业团队,但它的产出却又跟业务紧密相关,这些未知会给业务人员和管理层带来恐惧与不安,数据团队给的结论会不会有可能是被操纵的?会不会有意无意的误导?这些问题会很容易让团队之间滋生不信任。

所以数据民主化不足带来的一个重要问题就是信任问题,那该怎么解决?

严选在一次产技共创会中,有同事提出,要跟业务“谈恋爱”。对于眼下的现实,这确实是解决信任问题的一个好办法。阿里的曾经的数据一把手车品觉老师也说过类似的话:数据同学要会"混,通,晒",跟业务同吃同行,建立信任,才能互相成功。

但这终究不是一个可规模化和标准化的解决方案 。去年,我们在考虑 2019-2020 年严选数据平台发展的时候,想了很久这个问题。如何去降低数据使用的门槛,让一切更直观和更容易解释?我们开展的一些项目,SQL on AI, Data Intelligence System(DIS),算法平台等,一个共同的目标是 降低数据使用门槛,并通过产品的方式固化甚至可视化数据分析过程。

 陷阱与缺陷 4: 数据预测未来不是理所当然,预测的成功不仅是算法模型

老板们经常会把算法能力简单化:预测的不准?找两个 NB 的算法专家做个模型就能搞定!遗憾的是,现实并不这么简单,你可能找 100 个 NB 的算法专家都没用。

有人见过用算法来预测下一轮双色球中奖号码的么?有人用算法来预测接近混沌状态的股市涨落么?作为一个旁观者,你能利用算法来预测意甲的每场比赛成绩么?

有的业务问题本身是无法预测的,因为它跟过去没有关系(比如双色球);有的业务问题预测成本很高,短时间内无法做出有价值的模型(比如预测股市,预测比赛等),需要考虑投入与回报。事实上,很多算法的成功落地应用,不光是需要有合适的模型,还需要大量维度的数据作为生产资料,更关键的是要有一个完善,可靠的 算法工程体系。而后者,往往会被决策者忽略。

决策者在考虑利用算法模型去预测未来时,他需要想明白 投入与产出,组织需要投入的不止是 几位算法大神就行,还需要建设完善的数据基础体系,还需要建设完善的算法工程体系。决策者如果期望数据和算法能发挥突破性的效应,需要有魄力把成本投入到自己目光不能及的地方,比如基础数据体系,比如算法工程。

陷阱与缺陷 5: 空中楼阁 - 基础设施与基础能力的不完备

这个问题比较抽象,对于 BI/ 算法 / 数据产品的同学而言,可能不好理解。不过大家只需要记住:数据的最底层,摇摇欲坠,并不坚实,同样需要一个团队精心守护。

大家在兴奋的玩耍数据,利用数据来驱动业务前进的时候,如果回头望望做 Data Infra 的同学,如果他们告诉你其实你在用的数据能不能真的算出来、有没有算对,他们也没多少信心的时候,你会不会觉得心惊肉跳,会不会觉得人生其实有些虚无?如果大家有机会采访下各个互联网公司,可以问问他们被抱怨最多或者故障最多的技术团队是哪个?相信答案都比较一致:“大数据基础团队”。包括严选的前面几年,这个情况也非常严重(当然现在也没好多少)。数据故障频出,数据产出排期长、节奏慢、不稳定等情况都很常见,很多时候我们是用睡觉时间在做人肉保障。每每回想起来,都会心惊。

这当然并不是因为大数据基础行业的从业者敬业精神不足或者能力不足。而是因为大数据体系其实并没有一个非常坚实的工程基础。

数据的基础设施可靠性不足:数据的采集系统,数据的存储系统,数据的计算系统,数据的分析引擎,这些服务的可靠性相比其他的在线服务低一大截。数据平台每天的定时数据计算服务,比如 Hive,或者 spark,成功率如果有 98%,已经算是很不错了,而线上服务系统,如果可靠率长期在 98% 以下,相关团队的同学很难坚持一年不被优化。就算数据成功的被计算出来了,我们的分析引擎,比如 impala,查询成功率也长期低于 95% 以下,在严选这个数据还要更差一些,impala 的查询失败或者超时,几乎每天都有不少。

计算模型不完备和广泛的误解:大数据的计算有两个模型:Streaming,Batch。两个模型对应的基础设施各自独立发展,谁也不理谁。同时,由于信息流转的速度问题,也有人把这两个模型称为实时计算和离线计算。虽然,Streaming & 实时计算;Batch & 离线计算,在很多现实场景中,存在着一致性,但本质上,它们是两回事。甚至很多从业者也无法清晰的分清楚这些基本概念,把实时计算和流计算等同,这给数据工作带来了巨大的困扰。

为了适配这两个计算模型,很多组织的 Data Infrastructure 团队会有独立的流计算团队和批处理团队;会有实时数仓和离线数仓,会有实时指标和离线指标等等。这些数仓和指标的研发人员存在着割裂,数仓建设方法论、指标定义也不尽相同。维护成本和解释成本都很高,出错几率也很大。很常见的情况是一个业务的数据需求,往往需要拆解成实时和离线两个方案,共同去实现。这个糟糕的局面没有变的更好。

LinkedIn、Uber、阿里等等公司都在尝试做批流融合,严选也在尝试,我们在做计算资源管理和调度层面的融合。但是,融合两种完全不同的计算模型,是一件不美好的事情,直觉上也不大对。我觉得现实的业务问题可能并不是聚焦在批流两种计算模型的不兼容上,而是聚焦在实时和离线两个时间维度上的不兼容。由于历史原因,实时的数据往往需要依赖流计算模式来产生,从而产生了实时计算 == 流计算的误会。而融合实时数据与离线计算,解决起来就容易很多 。而流处理也需要走向更适合它的场景。

其实能总结的问题远不止这些,比如我们会担心“算法替代思考,会不会伤害组织的远见?”、“大规模依赖 A/B 测试做决策,可能会导致运营策略的短视” 等等。

内容来源:AI前线

作者:陈炬

  • 54
    点赞
  • 184
    收藏
    觉得还不错? 一键收藏
  • 30
    评论
大数据时代的数据科学与数据驱动决策全文共4页,当前为第1页。大数据时代的数据科学与数据驱动决策全文共4页,当前为第1页。大数据时代的数据科学与数据驱动决策 大数据时代的数据科学与数据驱动决策全文共4页,当前为第1页。 大数据时代的数据科学与数据驱动决策全文共4页,当前为第1页。 摘要:基于大数据时代背景下,各种数据呈现出爆炸式增长的态势,这也对数据科学发展提出了更为严苛的要求,同时也给数据科学家的工作带来了不小的挑战。如何科学地处理数据,强化数据驱动,是推进企业运行效率的重要保证,同时是强化企业经营效益、促进企业健康发展的软措施和硬道理。文章从多个视角出发,对基于大数据时代的数据科学与数据驱动决策展开系统性研究和分析,以供参考。 关键词:大数据数据科学;数据驱动决策 前言 随着现代化科学技术的迅速发展,各种现代化技术也加快了发展进程,信息化建设进程也日益加快,科学技术推进了社会生产力的进一步提升,在这样的背景下,大数据时代悄然而至。基于大数据时代下的数据信息呈现出爆炸式增长的态势,在此过程中,各个产业的企业也都逐渐认识到了数据的应用优势,现阶段,数据的多元化已经远远超出了传统数据库和人工处理的容量,与此同时,计算机的性能语法强大,网络逐渐渗透在各个领域,算法研究也愈加深入,这也给数据科学的有效应用奠定坚实基础。目前来说,虽然大多数企业已经清晰地认识到了数据科学家的工作意义,但是却依然没有清晰地定义数据科学,这也极大程度上增加了实际工作决策错误率,进而降低了工作效率。所以,科学地实践和定义数据科学,强化数据科学驱动认知,也具有重要现实意义。 1数据科学 大数据时代的数据科学与数据驱动决策全文共4页,当前为第2页。大数据时代的数据科学与数据驱动决策全文共4页,当前为第2页。近年来,随着大数据在社会各个领域的广泛应用,以大数据技术为载体的社会主体驱动已经逐步趋向于稳定。在此过程中,通过深入分析和研究大数据系统的运行基理,深化大数据管理模式的研究,也是推进大数据深入发展和高质量驱动的前提。立足于这个视角,对大数据时代下的数据科学进行深入分析和研究,也具有重要的现实意义。从高维度视角分析,数据科学主要指的是通过强化一系列指导活动来数据中的关键信息,在此基础上,深入挖掘数据中的相关信息以及对数据知识基本原则加以切实地分析。数据挖掘是与数据科学有着十分密切的词汇,其主要指的是依托于数据科学原则来深化数据指导实践,数据挖掘的算法是千奇百怪的,其中的细节更是不胜枚举,这些都是数据科学实现蓬勃发展的有效体现。在商业领域中,通过广泛地应用基本原则,以及科学地应用市场营销基本原则。能够最大程度上为顾客创造价值型服务,强化单位的顾客价值。大数据具有重要的战略价值,已成为世界范围内政府、组织、企业以及个人的共识,但大数据固有的稀疏性和低价值密度特性也是对其进行处理和分析所要面对的重要难题。在数据科学领域中,数据挖掘算法是其重要组成内容,一个成功的数据科学家务必要立足于数据角度来对商业问题予以深入分析和研究,数据科学融会了诸多传统学科,数据科学的大多数技术也都是来自于统计学知识。在一个特定领域,数据科学对于个体直观性、创造性以及问题解决能力都提出了更为严苛的要求,在数据科学视角下,能够为更多实践者提供更多解决问题的原则,同样也给数据科学家提供了依托于数据获取知识框架的可能性。 大数据时代的数据科学与数据驱动决策全文共4页,当前为第2页。 大数据时代的数据科学与数据驱动决策全文共4页,当前为第2页。 2数据科学以及数据驱动决策 大数据时代的数据科学与数据驱动决策全文共4页,当前为第3页。大数据时代的数据科学与数据驱动决策全文共4页,当前为第3页。数据科学容纳了自主分析数据等原则,一般情况下,提升决策是数据科学的最终目的,这也是业内重点关注的课题之一。数据驱动决策主要指的是分析数据。比如,一个市场人员可以结合自身的经验来分析和预测行业前沿数据和资料,在此基础上,可以结合数据决策或者结合自身的从业经验来优化企业方案的设置,也可以深化这两者方式结合机制的运用。数据驱动决策不具备排他性,可以有效地完善和补充传统决策手段。据相关调查显示,若一个企业能够深化数据驱动决策的应用,则会付出较高的产出比,虽然提升空间幅度并不是很大,但是却能够给企业创造更多的资本回报率以及经济效益。从实际视角出发,目前我国更多地关注数据驱动实践领域,之前在我国国内也深入地探究和分析了关于老年人早高峰中数据驱动的使用,社会舆论视角多是探究了在早高峰阶段,需要出台一系列制度来禁止老年公交卡的使用,意在为年轻人上班节省更多的时间,为上班族提供便利。但是,通过深入分析和研究北京公交数据可知,大多数老年人并没有选择早高峰7.30—8.00之间出行,因此老年人不仅没有对高峰时期公共交通产生不良影响,反而
### 回答1: 《大数据大创新:云上数据中台之道》是一本关于大数据和云计算的书籍,旨在探讨如何通过构建数据中台实现企业的数字化转型和创新发展。 首先,该书说明了大数据和云计算对于企业的重要性和价值。大数据作为一种新的生产要素,可以帮助企业挖掘数据中蕴藏的商业价值,并于竞争中获得优势。而云计算作为一种灵活的计算和存储方式,为企业提供了高效、可扩展和经济的解决方案。 接着,书中介绍了构建数据中台的关键要素和方法。数据中台是一种基于云计算的数据管理平台,将企业内外部的各种数据进行整合和管理,形成一套完整的数据体系。通过数据中台,企业可以实现数据的集中管理、整理和加工,从而实现数据共享和分析,为企业的决策提供有效支持。 此外,书中还提供了一些成功案例和最佳实践。通过分析这些案例,读者可以了解到企业在利用大数据和云计算方面的具体做法和效果。这些案例涵盖了不同行业和领域,旨在帮助读者了解如何根据自身需求和条件进行实践和创新。 最后,该书还强调了数据中台建设的挑战和未来发展趋势。由于大数据和云计算技术的快速进步和应用,数据中台正面临着各种挑战和机遇。此书通过对挑战的分析和展望,为企业提供了一些建设数据中台的思路和方法,并对未来的发展趋势给出了一定的预测。 总而言之,《大数据大创新:云上数据中台之道》是一本关于大数据和云计算的实践指南,旨在通过构建数据中台实现企业的数字化转型和创新发展,为企业和个人对大数据和云计算技术有兴趣的读者提供了宝贵的参考和指导。 ### 回答2: 《大数据大创新:云上数据中台之道》是一本关于大数据和创新的书籍,重点讲述了云上数据中台的运作方式和方法。 云上数据中台是指将企业内部、外部以及合作伙伴的各类数据整合和利用起来,在云端建立一个统一的数据中心,实现数据的共享、协同和挖掘,从而帮助企业进行创新和决策。 这本书深入浅出地介绍了云上数据中台的基本概念和架构,以及如何建立和运营一个高效的数据中台。它提供了一系列实用的案例和方法,帮助读者了解如何从海量的数据中提取有价值的信息,并将其应用于企业的决策和创新过程中。 通过云上数据中台,企业可以更快速地获取和分析数据,实现数据的精准管理和使用。这有助于企业加快创新步伐,提高市场竞争力。同时,云上数据中台还可以帮助企业进行精细化运营,优化资源配置,实现成本降低和效益最大化。 《大数据大创新:云上数据中台之道》还介绍了云上数据中台的发展趋势和未来的挑战,为读者提供了对未来数据领域的思考和展望。它为广大企业家、管理人员和数据从业者提供了一份宝贵的参考资料和指导。 总之,本书全面而深入地介绍了云上数据中台的概念、架构和应用,并通过实用案例和方法帮助读者掌握相关技术和工具,使其能够在大数据时代中更好地创新和决策。它是一本对于大数据和创新感兴趣的人士非常有价值的读物。 ### 回答3: 《大数据大创新:云上数据中台之道》是一本介绍大数据和数据中台领域的书籍,其中包含了对云上数据中台发展的思考和实践经验。 大数据是当前快速发展的领域,通过收集、存储和分析海量数据,可以为企业提供更深入的洞察和决策支持。而数据中台作为大数据的基础设施,是连接各个业务系统和数据源的枢纽,能够实现数据的集成、共享和加值。 该书首先介绍了大数据和数据中台的基本概念和发展趋势。随着云计算技术的成熟和普及,云上数据中台成为了大数据发展的重要方向。云上数据中台能够提供弹性的计算和存储资源,解决了传统数据中台的资源瓶颈问题。 接着,书中详细分析了云上数据中台的架构和关键技术。云上数据中台需要建立高效可靠的数据集成、数据治理和数据分析能力。同时,还需要关注数据安全和隐私保护的问题。书中给出了一些实际案例和解决方案,帮助读者更好地理解和应用云上数据中台。 该书还探讨了云上数据中台与创新的关系。通过云计算、人工智能和物联网等技术的结合,云上数据中台能够为企业创新带来更多的机会。通过对大数据的挖掘和分析,可以发现新的商业模式和增长点,促进企业的创新和竞争力。 总的来说,《大数据大创新:云上数据中台之道》是一本介绍大数据和数据中台领域的实用性书籍,对于想要了解和应用云上数据中台的人来说,是一本值得阅读的参考书。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值