【直击DTCC】技术流:扩展Spark引擎支持MPP计算场景

【IT168 评论】数据库性能优化、云时代的数据库、NoSQL技术进展、大数据云服务、数据分析与挖掘、机器学习……有别于“短暂”的技术分享会,由盛拓传媒、IT168主办的2017年中国数据库技术大会(DTCC 2017)在会议的第二天依然干货满满。

12日下午的数据分析与挖掘专场迎来了一位技术流的嘉宾—联想大数据研发总监张成松,他经历了联想公司大数据平台的从无到有,在平台创建和团队组建的路上,他踩过很多坑也趟过很多河。今天张成松为我们带来了题为《扩展Spark引擎支持MPP计算场景——替换大规模企业级传统数据仓库》的演讲。


▲联想大数据研发总监 张成松

  

随着业务的飞速增长,数据越来越多,很多企业往往会面临这样的困惑:数据查询、数据分析越来越慢,经常跑个半小时也出不来;Oracle、SQL Server数据库,存不下了,维护成本和费用也越来越高;T+1的数据处理太慢,无法在下一秒知道业务有没有问题;除了传统业务数据,智能sensor、穿戴式设备数据,非结构化数据越来越多。

  

在这种情况下,传统企业级数据仓库势必要向大数据平台转型。张成松认为在这个转型过程中有三个问题要解决,第一个是传统数据应用问题,涉及到历史数据迁移、与传统数据仓库&应用工具无缝集成、适配原有业务处理逻辑、支持数据CRUD、支持存储过程;第二个是大数据计算问题,涉及到PB级数据计算、结构化&非结构化数据存储、应用、大数据场景数据分析、大数据环境下的数据治理;第三个是数据实时性处理问题,涉及到实时数据采集、流式技术、实时计算、交互、探索多维数据分析。

  

张成松表示企业级大数据实施平台有三种,一种是两套架构MPP+Hadoop,数据独立存储,集群间数据同步,缺点是资源浪费;第二种是变种Hadoop,融合MPP,两套融合的系统,数据独立存储,抽象存取服务,按需选择计算引擎;第三种是一套Hadoop/Spark for MPP架构,同时支持大数据计算和传统数据仓库,导入历史数据后,数据同意存储。

  

张成松现场了分享他们在Spark MPP上的相关操作:

  

张成松表示实现了数据的CRUD操作,支持存储过程、游标、函数、变量等逻辑,仅仅是Spark架构实现MPP功能的第一步。为了提升执行效率和性能,还需要从不同层面对Spark MPP引擎进行优化。

  

联想大数据企业级分析平台最初是为了支持其手机业务,经过6年和300多名研发人员的持续投入,联想在北京、成都、香港拥有三个研发中心,200余名大数据研发工程师,60余名大数据平台运维工程师。目前联想数据总容量为12PB, 数据总量 10PB,日新增数据 30TB,日处理数据 4.3 PB。

  

据悉,联想大数据企业级分析平台是由六大部分组成的,它们分别是数据采集转换套件、大数据计算平台、数据能力开放平台、业务分析套件、数据资产管理平台以及系统运维监控中心。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值