2019年大数据的发展趋势

前言

企业喜欢将技术栈的层次定义为“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是,在数据方面,企业仍然采用IT拥有和IT控制模式运行,数据用户正在等待他们的“即服务”模式到来。

今年随着开源技术,方法论和云服务的使用越来越广泛,我们将看到企业更接近他们的数据“即服务”模式,这个模式使企业的数据科学家,数据使用者和数据工程师更具创造力。

趋势1:Apache Arrow和Arrow Flight的崛起

在这里插入图片描述
在过去的三年中,出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或进程。相反,Arrow是一个开源项目,它定义了用于处理数据的内存列存储格式以及对应的低级别操作库,如针对特定运行时环境进行高度优化的sorts, filters, and projections操作。这些操作的资源利用率更高更快。

今天,Arrow用于许多类型的应用程序,包括SQL引擎(如Dremio的Sabot),数据框架(例如,Python pandas),分布式处理(例如Spark),数据库(例如InfluxDB),机器学习环境(例如RAPIDS)和一些可视化系统。在过去六个月中,Arrow的采用率急剧上升,仅Python社区每月下载量就超过100万次。

使用的原因很明显:分析程序的开发人员希望最大限度地提高系统效率,以改善用户体验并降低在云环境中运行这些系统的成本。通过转向Arrow-based的架构,开发人员通常可以获得约100倍的速度和效率提升。

在这里插入图片描述
2019 年,我们将看到 Arrow 在更多软件应用程序中继续采用,包括机器学习、数据科学、统计包和商业智能。这些软件应用程序使用Arrow 的驱动,不仅来自于速度和效率的提升,还可以使得多个使用Arrow的系统间自由进行数据交换。当两个系统都实现Arrow时,可以在不对数据进行序列化和反序列化的情况下进行数据交换,且避免了不必要的复制,从而释放CPU,GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight,这是应用程序与Arrow交互的新方式。你可以将Flight视为ODBC / JDBC的替代方案,用于内存分析。现在我们已经建立了一种在内存中表示数据的方法,Flight则定义了一种在系统之间交换数据的标准化方法。

例如,对于与 Dremio交互的客户端应用程序,今天我们将数据去序列化为通用结构。当 Tableau 通过 ODBC 查询 Dremio 时,在序列化到 ODBC 期望的基于单元格的协议之前,我们会处理查询并将结果作为 Arrow 缓冲区流式传输到 ODBC 客户端。一旦 Arrow Flight 普遍可用,实现 Arrow 的应用程序可以直接使用 Arrow 缓冲区。在我们的内部测试中,我们观察到与 ODBC/JDBC 接口相比,这种方法的效率提高了 10 倍-100 倍。

趋势2:数据即服务

我们现在已经进入AWS时代已经10年了,它始于按时按需的基础设施。DaaS已经从整个云服务技术栈中向上发展,包括了完整的应用程序和组件。现在,企业希望为他们的数据提供相同的“按需”体验,即时满足个人用户的特定需求,具有出色的性能,易用性,与他们喜爱的工具兼容,而且无需等待IT团队数月。

DaaS包括几个不同的功能:

  • 数据目录(Data catalog):全面的数据资产清单,数据使用者可以轻松地跨不同系统和来源查找数据,以及按对业务有意义的方式描述数据。
  • 数据管理(Data curation):用于过滤,整合和转换数据的工具。将可重用数据集添加到数据目录中以供其他用户使用。某些部署可以使用虚拟数据集实现数据管理,将数据副本降到最少。
  • 数据血缘(Data lineage):在从不同系统访问数据集并创建新数据集时,跟踪数据集的出处和血缘的能力。
  • 数据加速(Data acceleration):数据加速让用户可以快速、交互式访问大型数据集。如果查询需要几分钟才能处理,则用户无法有效地执行其工作。
  • 数据虚拟化(Data virtualization):企业数据存在于许多不同的系统中,包括数据仓库,数据湖和操作系统。它提供了一种统一的原位访问数据的方法,用户无需将所有数据复制到新的孤岛中。
  • SQL执行(SQL execution): SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。

企业现在通过组合这些功能性能力来构建DaaS,以提高数据使用者的生产力。使用开源项目、开放标准和云服务,企业将在关键业务线上向数据使用者提供他们的第一次DaaS迭代。

趋势3:云数据湖

随着企业重新升级AWS、Azure和Google的云服务平台,在这个过渡时期,数据分析往往是最具挑战性的。每个供应商都为数据仓库和数据集市提供了替代方案:AWS上的Redshift,Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品,如Snowflake,支持多个云平台。

除数据仓库外,企业还可以选择其数据科学工作,包括每个云供应商的本地Spark产品,以及来自不同供应商(如Databricks)的一系列数据科学平台。

云数据湖将整合云数据仓库和云数据科学环境,作为基础的通用平台。随着企业将其分析工作迁移到云,云数据湖将作为基础设施:

  • 数据首先以原始形式存在,包括旧应用程序和流式数据(Stream Data)
  • 根据不同需求对数据进行转换,丰富和整合
  • 数据用于数据科学场景
  • 数据被加载到云数据仓库中

企业正在利用多种技术构建云数据湖:AWS上的S3,Azure上的ADLS和用于存储数据的Google云存储。对于数据处理,企业使用多种选项,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现,例如与Kafka等流式平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式,对于将迁移到云的企业而言,云数据湖也将成为基础系统。

关于作者

Tomer Shiran是Dremio的联合创始人兼首席执行官。此前,他曾担任MapR的产品管理团队负责人,负责产品战略,路线图和要求。在加入MapR之前,Shiran在IBM和Microsoft担任过许多产品管理和工程职位。他拥有卡内基梅隆大学计算机工程硕士学位和以色列理工学院理工学院计算机科学学士学位,并拥有五项美国专利。

原文出处

  1. Tomer Shiran,What’s Ahead for Data in 2019,January 4, 2019

公司简介

广州脑洞智能科技有限公司是一家专注于大数据、云计算和人工智能的高新科技公司。为用户提供易用的前沿产品和技术,提高个人及团队的生产效率。让每个人都能轻松探索和分析海量数据,高效获取数据价值。我们的使命是让用户能在几分钟内解锁数据价值。

公司秉承的理念——开源是数据产品未来,持续扩大社区影响力,致力于前沿技术领域的创新实现和分享。

公司自成立以来,不断完善企业创新体系、提高核心技术实力,先后获评广州市科技创新小巨人入库企业、广东省高新技术企业,得到有关部门及客户的认可。

关注我们,我们将带来更多大数据云服务的新鲜资讯!
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值