大数据时代与多云时代:一个消亡,一个诞生

全文共3946字,预计学习时长8分钟

图片来源:unsplash.com/@ev

随着当下的重点从收集数据转向实时处理数据,大数据时代正走向消亡。如今大数据是种商业资产,为即将到来的多云支持、机器学习和实时分析时代奠定基础。

 

 

原始大数据时代终结于2019年6月5日,这一天,汤姆赖利宣布自己即将从Cloudera辞职,随后Cloudera的市值下降。加上MapR最近宣布可能关门大吉,能否继续运营将取决于MapR能否找到买家。这些都强烈表明,由Hadoop驱动的原始大数据时代已于2019年6月结束。

大数据将被铭记,因为在它的帮助下,社交媒体开始占据主导地位,它从根本上改变了企业处理大量数据的思维模式。而且,数据分析、数据质量和数据管理可以作为衡量企业资产的标准。

对大数据时代致以悼词的同时,需要强调的是大数据技术实际上并未消亡。但鉴于它已经在企业中建立了自己的地位,基于Hadoop的原始大数据时代已经趋于成熟。大数据不再是无限增长、高速运转的炒作周期的一部分,而是一项成熟的技术。

大数据和Hadoop在谷歌引擎上的搜索量变化

大数据的诞生

2006年,Apache Hadoop开始投入使用,大数据时代随之到来。当时开发人员和架构师认为这一工具能够帮助处理和存储多结构化和半结构化数据。人们对企业数据的看法发生了根本性的转变,不再局限于传统企业数据库的ACID(原子性、一致性、隔离性和持久性)等特性。公司意识到先前丢弃或封存的数据实际上可能有助于理解客户行为、采取行动的倾向、风险因素以及复杂的组织、环境和商业行为,这导致了数据用例的变化。

 

Hadoop的商业价值最初出现于2009年,当年Cloudera发布商业版本,MapR、Hortonworks和EMC Greenplum(如今的Pivotal HD)紧随其后。尽管分析师们纷纷预测大数据是个价值500亿美元以上的潜在市场,但作为分析工具,Hadoop最终在21世纪的前十年遭遇挑战。

 

Hadoop企业界遭遇的挑战

 

尽管Hadoop在大型存储、ETL(提取、转换和加载)作业以及通过批处理支持机器学习任务等方面作用显著,但对于企业和大型组织用于日常决策的、较为传统的分析工作而言,它并非最佳选择。比起Hadoop,Hive、Dremel和Spark等工具更适用于分析。并且Hadoop的运行速度不够快,无法真正代替数据仓库。

 

Hadoop还面临着其他挑战。在处理原本Hadoop旨在解决的存储和管理难题时,NoSQL数据库和对象存储提供商取得了重大进展。而随着时间的推移,无法实现业务连续性、缺乏灵活性,难以胜任实时分析、地理空间和其他新兴分析用例等,这使得Hadoop的业务范围难以从批量处理扩展到大量数据。

 

此外,随着时间的推移,企业发现越来越多的大数据问题需要广泛的数据来源,对数据模式、查询和定义进行快速调整,以及反映新的应用程序、平台和云产业供应商使用情况的具体情境。为了解决这一难题,分析、集成和复制等操作必须更加敏捷和快速。许多供应商应运而生,包括:

 

· 分析解决方案提供商,如ClearStory Data,Domo,Incorta,Looker,Microsoft Power BI,Qlik,Sisense,Tableau和ThoughtSpot

 

· 数据信道供应商,如Alooma,Attunity,Alteryx,Fivetran和Matillion

 

· 数据集成供应商,包括Informatica,MuleSoft,SnapLogic,Talend和TIBCO(它们还通过Spotfire产品组合在分析领域相互竞争)

 

不论从收购还是资金的角度来看,这类公司似乎都成了万众瞩目的焦点,这绝非巧合。最近的例子包括但不限于:

· ThoughtSpot于2018年5月D轮融资1.45亿美元

· Sisense于2018年9月E轮融资8000万美元

· Incorta于2018年10月B轮延期融资1500万美元

· Fivetran于2018年12月A轮融资1500万美元

· Looker于2018年12月E轮融资1.03亿美元

· TIBCO于2018年12月收购Orchestra Networks

· LogiAnalytics于2019年2月收购Jinfonet

· Google于2019年2月收购Alooma

· Qlik于2019年2月收购Attunity

· Informatica于2019年2月收购AllSight

· TIBCO于2019年3月收购SnappyData

· Alteryx于2019年4月收购ClearStory Data

· Matillion于2019年6月C轮融资3500万美元

· Google计划于2019年6月收购Looker

· Salesforce计划于2019年6月收购Tableau

· LogiAnalytics于2019年6月收购Zoomdata

 

这些公司的成功反映了社会需要分析师、数据和灵活的平台,以提高在具体情境下来自不同云端和来源的数据的分析价值。2019年,这类公司行为还会更多,因为其中一些公司要么是私募股权所有,要么已经获得了大量风险投资,它们需要尽快退出,为未来的风险投资积蓄基金。

图片来源:unsplash.com/@jontyson

 

随着大数据时代的消亡,我们将进一步享受到多云时代、机器学习时代以及实时和无处不在的上下文时代等大数据时代带来的福利。

 

多云时代更加需要跨多个云支持现有的各种应用程序和平台,更加需要持续服务和业务连续性。“已经有用于处理这个任务的应用程序”的心态使得企业中平均每个员工都有1个SaaS应用程序,这意味着每个大型企业都要支持数千个SaaS应用程序的数据和流量。后端容器化的发展导致存储和工作负载环境趋向分散化和专业化,以支持按需和峰值使用环境。

 

机器学习时代的特征是重视分析模型、算法、模型训练、深度学习以及算法和深度学习技术的伦理。机器学习的大部分工作和以分析为目的的数据清洗工作相同,但还需要额外的数学、商业和道德研究来创造持久和长期的价值。

 

实时和无处不在的上下文时代更加需要从分析和参与的角度及时更新。从分析的角度来看,仅仅每周一次或每天一次更新公司分析处理结果已经无法满足需求。如今员工需要近乎实时的更新,否则就有可能做出已经过时的决策。有效使用实时分析需要广泛的业务数据以提供适当的具体情境,并基于数据和需求执行分析。无处不在性还要求交互,要求物联网提供更多对环境和机械活动的边缘观察,同时也要求尚在发展中的扩展现实世界——包括增强和虚拟现实——为用户提供身临其境的情景。为了提供这种级别的交互,必须以短至300-500毫秒的交互速度分析数据,以提供有效的行为反馈。

 

随着大数据时代的结束,可以更多地关注对大量数据进行处理、分析和实时交互的无数难题,而不是收集大量数据的方式。在迈入大数据驱动的新时代之前,请牢记以下几个概念。

 

首先,Hadoop仍然在企业数据领域占有一席之地。Amalgam Insights预测MapR最终将成为一家以管理BMC、CA或Micro Focus等IT软件而闻名的公司,并且它认为Cloudera已采取措施改进Enterprise Hadoop以支持下一个数据时代。但技术的发展毫不留情,Cloudera的症结在于它是否可以快速转型。在将企业数据平台发展为下一代研究和机器学习平台方面,Cloudera面临着数字转型挑战。过去几十年来,公司一直能够确定转型的时间轴。如今,正如亚马逊、Facebook和微软那样,成功的科技公司必须准备好每十年进行一次改革,甚至蚕食自己的一部分以保持活力。

 

其次,对多云分析和数据可视化的需求比以往任何时候都大。谷歌和Salesforce前不久花费了180亿美元用于收购Looker和Tableau,这些收购基本上是根据规模和收入增长情况进行的市价收购。还将有数十亿美元将用于研究各种来源的数据的分析方案,并用于支持与多云相关的日益分散和多样化的存储、计算和集成需求。这意味着企业需要战略性地确定数据集成、数据建模、分析和/或机器学习/数据科学团队将在多大程度上解决这些问题,因为异构数据的处理和分析变得越来越困难和复杂,而且仍须支持战略业务需求并将数据用作真正的战略优势。

 

第三,机器学习和数据科学是下一代解析性分析,需要独特的新型数据管理工作。大规模地创建测试数据、合成数据和掩蔽数据以及谱系、治理、参数和超参数定义以及算法使用需要超越传统的大数据。最值得担心的是,因为样本量小、数据源不足、数据定义不清晰、数据情境不佳,或者算法和分类假设不准确等原因,使用不能胜任业务的数据。换句话说,不要使用谎言数据。谎言数据会导致偏颇、不合规、不准确的结果,并可能导致类似Nick Leeson在1995年毁掉Barings Bank,或Societe Generale由于Jerome Kerviel操纵交易产生70亿美元交易损失的后果。AI现在是新的潜在“流氓交易者”,需要得到适当的监控、管理和支持。

 

第四,实时和无处不在的环境是对数据的挑战,同时也是对协作和技术的挑战。人们正在进入这样一个世界,在这个世界里,每个对象、过程和对话都可以通过附加的文本进行标记,加上字幕或扩充,并且可以实时处理数十亿字节的数据,以产生一个“慢下来”或者“现在就买”这样简单的警报。Gong、Tact和Voicera等公司尝试以数字方式记录、分析并使用额外文本增强模拟对话,为工业界的PTC,GE以及其他产品生命周期和制造业、商业公司创建了“数字双胞胎”的概念。

 

结论

总之,大数据时代已经结束。但在此过程中,大数据本身已成为IT的核心方面,并发展出一系列新的时代,每个时代都有光明的未来。投资大数据的公司应将这些投资视为未来实时、增强和互动参与公司的重要基础。随着大数据时代的结束,现在准备将整个大数据作为商业资产,而不仅仅是炒作,以支持基于工作的情境、机器学习和实时交互。

算法的公平性也可以量化?试试这三个指标吧

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值