大数据项目失败的4个原因以及成功的4种方法

好吧,大数据项目的规模和范围都很大,通常雄心勃勃,而且经常失败。 2016年,Gartner估计有60%的大数据项目失败了。 一年后,Gartner分析师Nick Heudecker表示,他的公司“过于保守”,估计为60%,失败率接近85%。 今天,他说什么都没有改变。

Gartner并不孤单。 微软公司的长期执行官和(直到最近)Snowflake Computing的首席执行官Bob Muglia告诉分析网站Datanami :“我找不到满意的Hadoop客户。 就这么简单。 ……实际上已经成功驯服了Hadoop的客户数量可能少于20个,并且可能少于10个。 鉴于该产品,该技术已经投放市场多长时间,以及投入了多少常规行业能量,这简直就是疯了。” Hadoop当然是引发大数据狂潮的引擎。

[InfoWorld的要点: 什么是大数据分析? 您需要了解的所有内容什么是数据挖掘? 分析如何发现见解 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

熟悉大数据的其他人也说,问题仍然是现实的,严重的,并且不完全是技术之一。 实际上,相对于真正的罪魁祸首,技术是次要的失败原因。 这是大数据项目失败的四个关键原因,以及成功的四个关键方法。

大数据问题1:集成不良

Heudecker说,大数据故障背后存在一个主要的技术问题,那就是集成来自多个来源的孤立数据以获得公司所需的见解。 与孤立的旧系统建立连接根本不容易。 他说,集成成本是软件成本的五到十倍。 “最大的问题是简单的集成:如何将多个数据源链接在一起以获得某种结果? 很多人走在数据湖路线上,想想如果我将所有事情都链接到某种魔法上,那将会发生。 事实并非如此。”他说。

孤立的数据是问题的一部分。 客户告诉他,他们将数据从记录系统中拉到数据湖之类的通用环境中,无法弄清这些值的含义。 “当您将数据放入数据湖时,您如何知道数字3的含义?” Heudecker问。

普华永道资深研究员艾伦·莫里森说,由于他们在孤岛上工作或创建只是数据沼泽的数据湖,因此它们只是在探索自己可以完成的工作。 “他们不了解需要挖掘或推断并明确显示的数据中的所有关系,因此机器可以充分解释这些数据。 他们需要创建一个知识图层,以便机器可以解释下面映射的所有实例数据。 否则,您只会有一个数据沼泽,这是一个数据沼泽,”他说。

大数据问题2:目标不确定

您可能会认为大多数从事大数据项目的人实际上都会想到一个目标,但令人惊讶的数字却没有。 他们只是以事后的目标启动项目。

“您必须很好地解决问题。 人们认为他们可以连接结构化和非结构化数据并获得您所需的见解。 您必须提前定义问题。 您想获得什么见解? 数据定义软件公司Talend的产品行销经理Ray Christopher说:“问题的定义很清楚,而且要事先定义好。”

Enterprise Application Consulting的首席分析师Joshua Greenbaum表示,使大数据和数据仓库项目陷入困境的部分原因是主要的指导标准通常是积累大量数据,而不是解决离散的业务问题。

“如果将大量数据汇总在一起,则会得到数据转储。 我称它为卫生垃圾填埋场。 垃圾场不是找到解决方案的好地方,”格林鲍姆说。 “我总是告诉客户决定需要先解决哪些离散的业务问题,然后再解决,然后查看可用数据的质量,并在确定业务问题后解决数据问题。”

“为什么大多数大数据项目都会失败? 首先,大多数大数据项目负责人缺乏远见。”普华永道的莫里森说。 “企业对大数据感到困惑。 大多数人只考虑数字数据或黑匣子NLP和识别引擎,并进行简单的文本挖掘和其他类型的模式识别。”

大数据问题之三:技能差距

很多时候,公司认为他们为数据仓库建立的内部技能会转化为大数据,而事实并非如此。 对于初学者而言,数据仓库和大数据以完全相反的方式处理数据:数据仓库在写入时执行架构,这意味着数据在进入数据仓库之前就已被清理,处理,结构化和组织化。

在大数据中,将累积数据并应用读取模式,在读取时对数据进行处理。 因此,如果数据处理从一种方法转向另一种方法,您可以肯定技能和工具也是如此。 那只是一个例子。

技能永远是一个挑战。 如果我们谈论30年后的大数据,仍然会面临挑战,” Heudecker说。 “很多人都对Hadoop表示敬意。 我的客户在查找Hadoop资源方面遇到了挑战。 Spark更好一点,因为该堆栈更小且更容易训练。 Hadoop是许多软件组件。”

大数据问题四:技术代沟

大数据项目经常从较旧的数据仓库中获取数据,并尝试将其与新的数据源(例如传感器或网络流量或社交媒体)合并。 这并非完全是企业的错,企业在大数据分析概念出现之前就收集了数据,但这仍然是一个问题。

顾问Greenbaum说:“几乎缺少的最大技能是了解如何融合这两个利益相关者,使他们共同解决复杂问题的技能。” “数据孤岛可能成为大数据项目的障碍,因为没有任何标准。 因此,当他们开始着眼于计划时,他们发现这些系统还没有以重用这些数据的任何方式来实施。”

“使用不同的体系结构,您需要进行不同的处理,” Talend的Christopher说。 “技术技能和架构差异是为什么您不能使用当前工具来部署本地数据仓库并将其与大数据项目集成的常见原因-因为这些技术对于处理新数据而言将变得太昂贵。 因此,您需要HadoopSpark ,并且需要学习新的语言。”

[InfoWorld的要点: 什么是Apache Spark? 大数据分析平台介绍了以下内容Spark教程:Apache Spark入门什么是数据挖掘? 分析如何发现见解 | 通过《 InfoWorld日报》时事通讯了解最新的企业技术中的关键新闻和问题。 ]

大数据解决方案1:提前计划

这是一个古老的陈词滥调,但适用于此:如果您没有计划,请计划失败。 Gartner的Heudecker说:“成功的公司才是有成果的公司。” “挑选一些小的,可实现的和新的东西。 不要使用旧的用例,因为您会受到限制。”

普华永道的莫里森说:“他们需要首先考虑数据,并以一种机器可读的方式对其组织进行建模,以便数据为该组织服务。”

大数据解决方案2:一起工作

利益相关者经常被遗忘在大数据项目中,而正是那些人会使用结果。 Heudecker表示,如果所有利益相关者合作,他们可以克服许多障碍。 他说:“如果技术人员一起工作,并与业务部门合作以交付可行的结果,那将会有所帮助。”

Heudecker指出,在大数据方面取得成功的公司在必要的技能上进行了大量投资。 他认为这是数据驱动公司中最多的,例如金融服务,Uber,Lyft和Netflix,这些公司的财富基于拥有良好且可操作的数据。

“这是一项团队运动,可以帮助组织和收集数据并清理数据。 这样做还可以提高数据的完整性。” Talend的克里斯托弗(Christopher)说。

大数据解决方案3:重点

人们似乎有一种心态,即大数据项目需要庞大且雄心勃勃。 像您第一次学习的东西一样,成功的最佳方法是从小处开始,然后逐渐扩大野心和范围。

休达克说:“他们应该非常狭窄地定义自己在做什么。” “他们应该选择一个问题领域并拥有它,例如欺诈检测,对客户进行细分,或者弄清楚要在千禧一代市场中推出什么新产品。”

克里斯托弗说:“最终,您必须询问想要的见解或将业务流程数字化。” “您不只是将技术投入到业务问题中; 您必须预先定义它。 数据湖是必不可少的,但是如果业务中的任何人都不会使用它,您就不想收集数据。”

在很多情况下,这还意味着不要夸大自己的公司。 “在我研究过的每家公司中,整个业务都只有几百个关键概念和关系。 一旦了解了这一点,您就会意识到所有这几百万种区别只是那几百种重要事物的微小变化。”普华永道的莫里森说。 “实际上,您发现许多细微变化根本不是变化。 它们实际上是相同的东西,只是名称不同,结构不同或标签不同。”他补充说。

大数据解决方案4:杰蒂森的遗产

尽管您可能要使用收集和存储在数据仓库中的TB级数据,但事实是,仅关注于专为大数据而设计的非隔离存储系统中新收集的数据,可能会更好。

顾问Greenbaum表示:“我绝对建议不要仅仅因为您的公司获得了许可,而对现有的技术基础设施有所依赖。” “通常,新的复杂问题可能需要新的复杂解决方案。 依靠公司内部的旧工具十年都不是正确的方法。 许多公司都使用旧工具,这会扼杀该项目。”

莫里森指出:“企业需要停止纠缠自己的内裤,而要抛弃制造更多筒仓的传统架构。” 他还说,他们需要停止期望供应商为他们解决复杂的系统问题。 “几十年来,许多人似乎以为他们可以为解决大数据问题买单。 任何大数据问题都是系统性问题。 当涉及到任何复杂的系统更改时,您必须建立出路,”他说。

翻译自: https://www.infoworld.com/article/3393467/4-reasons-big-data-projects-failand-4-ways-to-succeed.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值