为什么大数据应用需要敏捷?敏捷大数据方法论

前段时间有报道称,有学者质疑“大数据”理论,也有硅谷公司负责人质疑大数据应用的效果。结合2011年Gartner关于BI(Business Intelligence)应用70%-80%都失败的一个调查结论(这里的fail是夸张的说法,更确切地讲应该是没有达到预期效果),本文就来谈谈为什么会出现这样的问题,大数据应用落地的瓶颈是什么?为什么大数据应用容易失败?为什么大数据应用需要敏捷?敏捷大数据方法论又是什么,包括那些关键技术,系统架构如何设计等等问题,希望能为业界大数据应用落地提供一点有价值的参考。

大数据应用落地的主要瓶颈是什么?

我在前文《论大数据的泡沫、价值与应用陷阱》有说到,大数据现象源于我们对未来不确定性的恐惧,和应对软件在加速吞噬世界(软件越来越庞杂,操作越来越自动化,数据越来越丰富,而大部分人却对其原理和特性却知之甚少)这一大背景下的管理失控问题。大数据规律的可预测性创造了一种新的知识体系和管理思维,但分析模型的黑箱和操作的自动化却削弱了人类对其深层规律的理解和探索能力,机器的量化能力与人的主观判断能力短时间内还难以有机融合,大数据应用不缺预测模型、计算资源和数据科学家,而是缺乏提出正确问题和利用大数据工具解决问题的能力,就好比用大炮没有打到蚊子,我们不能说大炮没用,而会说这个人的方法搞错了。

在这里我还是要推荐下我自己建的大数据学习交流扣扣裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴
 

“Between 70% to 80% of business intelligence projects fail”- Gartner, Feb. 2011

大数据分析的核心目标是,面向过去,发现数据规律,归纳已知;面向未来,挖掘数据趋势,预测未知。从而通过大数据分析提高对事物的理解和决策处置能力,最终实现智能化。不管是商业智能,机器智能,人工智能,还是智能客服,智能问答,智能推荐,智慧医疗、智慧交通等相关技术和系统,其本质都是朝着这一目标在演进。随着云计算平台和开源大数据系统(如Hadoop、Spark、Storm等)的高速发展,获得大数据基础设施建设相关技术和支持越来越容易。同时,移动互联网和物联网技术所具备的全面数据采集能力,客观上促进了大数据的积累和爆发。但是,大数据应用要落地,除了需要上述提出正确问题和利用大数据工具解决问题的能力之外,个人认为还面临如下几个方面的主要瓶颈:

1)IT向DT(Data Technology,DT)技术泛型的转变,使得传统硬件和软件技术架构面临挑战,大规模并行计算、量子计算机、深度神经网络芯片、分布式存储系统、GPU大规模计算等都是对传统IT技术架构的颠覆。现阶段各种大数据分析相关的开源技术和系统百花齐放,大数据技术生态体系庞杂,技术门槛较高也间接说明了这一点。研究、研发人员要跟上这一波技术变革还需要时间去消化和积累,特别是学术界和工业界的结合,对大数据应用来讲至关重要,深度学习领域的突破就是例证。如何在掌握有限技术的条件下(或受制于核心技术人才的情况下),能快速进行大数据应用研究和落地应用,需要从技术选型角度进行深入探讨、分析和评估。

2)传统商业智能(Business Intelligence, BI)应用的失败教训太多,项目周期漫长,考验客户耐性,应用投入成本高,最终成果多是昂贵的豪华报表,没有达到预期效果。另外,传统数据仓库和数据集市架构下,面对海量数据的存储能力、扩展能力、并发能力弱等问题无法从根本解决。大数据分析如何从BI项目中总结失败教训和获得经验,大数据应用与传统BI系统是融合还是代替?企业大数据技术架构如何与发源于互联网巨头的主流大数据技术框架有机统一?也还有很多问题需要深入总结,解决不好就会事倍功半。

3)大数据应用的标准化和产品化问题。针对大数据的多源异构、动态性、关联性等特点,对大数据分析流程和应用进行标准化的管理,对离线分析、在线分析、实时分析、内存分析等计算框架的融合处理,对图像、文本、视频、音频、网页、关系数据库等多源异构数据进行跨模态建模,对大数据分析结果的应用效果进行量化与评价。不管是从技术选型角度还是业务支撑角度,都还有很多问题需要实战经验的积累和支持,想要一劳永逸地解决不现实。

4)除了前述探讨的大数据应用面临的挑战之外,从大数据架构本身的技术角度分析还需要解决如下几个关键问题:高可扩展性,能支持大规模数据增长和大量业务分析的快速扩展等;高容错性和稳定性,能支持大数据分析的失败情况和进行自动恢复等;高性能和并行支持,能在海量数据条件下快速完成多种计算模型和分析处理;多源异构环境支持,能处理多模态数据和多种分析任务;开放性和共享支持,能提供标准的数据和开发接口,支持数据和系统集成;效率和成本的控制,能在有限的时间、人力和财力条件下提高系统性能等,这对大数据系统架构的设计提出了较高要求。

5)大数据管理思维和开发、应用实施的脱节,大数据强化了定量科学和客观方法的地位,但事实上,现阶段很多企业领导,包括技术人员对大数据的处理和使用仍然是主观性的,而且面对机器学习的黑箱,对模型的缺陷和适用范畴很难有深入把握,这样的话通过大数据挖掘分析量化的结果也未必更符合客观事实,大数据不等于好数据,如何切实辅助决策才是关键。

再则,大数据是非常碎片化的,大数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业里面都有它去关注数据的痕迹:一条生产线上的实时传感器数据,车辆身上的传感数据,高铁设备的运行状态数据,交通部门的监控数据等等;其次,现在的开源大数据系统架构和工具集来源于互联网巨头,这种技术架构不一定适合传统企业和政府关联机构,因为不同组织机构所拥有的数据类型和结构可能大不相同;再次,从大数据应用过程和特点来看,数据科学的本质是迭代,就好比婴儿的学习一样,输入-回应-反馈-学习-再输入,持续训练和学习才会产生智能,大数据分析系统是一样的道理,自适应优化和持续改进是大数据系统的必备特征。所以,这就需要大数据技术架构具有极强的灵活性、可扩展性,或者说敏捷性。

 大数据应用为什么需要敏捷?

上述五个方面的大数据应用瓶颈分析可以看到,大数据应用要切实落地并产生应有价值还要较长的路要走,当然这取决于我们的期望,在《企业大数据应用三段论》一文中,有明确的界定,大数据应用的效果不能轻易否定,当然也不能太乐观,关键还是看处于那个阶段,技术成熟度和设计研发能力如何等等。为什么大数据需要敏捷,或者说我为什么提出敏捷大数据,主要基于上述大数据应用瓶颈的判断:大数据应用落地面临很多现实问题,首先我们看大数据的应用过程和特点(如图1),大数据要完成的是一种将各方面源数据(零散的、相关的围绕某行业或者某分析主题的数据)通过ETL组织成为主题数据,从主题数据中提炼信息特征,从特征挖掘中发现规律和有价值的知识,就规律和预测等知识信息形成决策支持并进行应用和追踪评估,最后反馈回大数据系统进行反复验证、优化并持续迭代的闭环信息处理过程。

  • 7
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值