【直击DTCC】技术流：扩展Spark引擎支持MPP计算场景

最新推荐文章于 2024-01-20 17:41:31 发布

gaokeke

最新推荐文章于 2024-01-20 17:41:31 发布

阅读量232

点赞数

【IT168 评论】数据库性能优化、云时代的数据库、NoSQL技术进展、大数据云服务、数据分析与挖掘、机器学习……有别于“短暂”的技术分享会，由盛拓传媒、IT168主办的2017年中国数据库技术大会(DTCC 2017)在会议的第二天依然干货满满。

12日下午的数据分析与挖掘专场迎来了一位技术流的嘉宾—联想大数据研发总监张成松，他经历了联想公司大数据平台的从无到有，在平台创建和团队组建的路上，他踩过很多坑也趟过很多河。今天张成松为我们带来了题为《扩展Spark引擎支持MPP计算场景——替换大规模企业级传统数据仓库》的演讲。

▲联想大数据研发总监张成松

随着业务的飞速增长，数据越来越多，很多企业往往会面临这样的困惑：数据查询、数据分析越来越慢，经常跑个半小时也出不来;Oracle、SQL Server数据库，存不下了，维护成本和费用也越来越高;T+1的数据处理太慢，无法在下一秒知道业务有没有问题;除了传统业务数据，智能sensor、穿戴式设备数据，非结构化数据越来越多。

在这种情况下，传统企业级数据仓库势必要向大数据平台转型。张成松认为在这个转型过程中有三个问题要解决，第一个是传统数据应用问题，涉及到历史数据迁移、与传统数据仓库&应用工具无缝集成、适配原有业务处理逻辑、支持数据CRUD、支持存储过程;第二个是大数据计算问题，涉及到PB级数据计算、结构化&非结构化数据存储、应用、大数据场景数据分析、大数据环境下的数据治理;第三个是数据实时性处理问题，涉及到实时数据采集、流式技术、实时计算、交互、探索多维数据分析。

张成松表示企业级大数据实施平台有三种，一种是两套架构MPP+Hadoop，数据独立存储，集群间数据同步，缺点是资源浪费;第二种是变种Hadoop，融合MPP，两套融合的系统，数据独立存储，抽象存取服务，按需选择计算引擎;第三种是一套Hadoop/Spark for MPP架构，同时支持大数据计算和传统数据仓库，导入历史数据后，数据同意存储。

张成松现场了分享他们在Spark MPP上的相关操作：

张成松表示实现了数据的CRUD操作，支持存储过程、游标、函数、变量等逻辑，仅仅是Spark架构实现MPP功能的第一步。为了提升执行效率和性能，还需要从不同层面对Spark MPP引擎进行优化。

联想大数据企业级分析平台最初是为了支持其手机业务，经过6年和300多名研发人员的持续投入，联想在北京、成都、香港拥有三个研发中心，200余名大数据研发工程师，60余名大数据平台运维工程师。目前联想数据总容量为12PB, 数据总量 10PB，日新增数据 30TB，日处理数据 4.3 PB。

据悉，联想大数据企业级分析平台是由六大部分组成的，它们分别是数据采集转换套件、大数据计算平台、数据能力开放平台、业务分析套件、数据资产管理平台以及系统运维监控中心。

gaokeke

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【直击DTCC】技术流：扩展Spark引擎支持MPP计算场景

【IT168评论】数据库性能优化、云时代的数据库、NoSQL技术进展、大数据云服务、数据分析与挖掘、机器学习……有别于“短暂”的技术分享会，由盛拓传媒、IT168主办的2017年中国数...
复制链接

扫一扫