基于Spark SQL在生产环境中实现即席查询

最新推荐文章于 2023-03-23 16:28:44 发布

gaokeke

最新推荐文章于 2023-03-23 16:28:44 发布

阅读量585

点赞数

大数据的核心是处理大量的数据，然后分析，挖掘。大数据火的本质原因是互联网的兴起带动大量用户使用，由此产生大量数据，这么多数据是以前的单台机器无法在规定时间内处理完的，由此产生了需要用多台电脑一起计算的思想。

因此在计算机软件领域就产生了一系列的大数据技术，比如Hadoop，hdfs,storm,Spark等等。至于为什么会产生这么多技术，关键的问题是一是用户的大量使用，二是硬件的发展赶不上软件的发展。

关于此话题，我们从5个主题方向展开研究和讨论：

☑ Spinach：基于Spark SQL在生产环境中实现即席查询

☑ When TiDB meets Kubernetes

☑甲骨文大数据云服务

☑基于私有云的大数据运维实践

☑The Best Practices for Moving Oracle Database to the Cloud

关于以上诸多问题的疑惑，在5月11—13日举行的DTCC2017第八届中国数据库技术大会上，我们特邀了Intel、甲骨文、PingCAP、飞谷云等的5位高级技术专家，特设【专场9：大数据云服务】从生产环境、云调度、云方案部署、数据运维等几个角度展开分享，就以上五个问题展开分享。

5月12日下午13:30，5位云部署方面的高级技术专家，给你带来全新的「专场9：大数据云服务」：

专场9：大数据云服务

5月12日下午13:30-18:00

王道远/李元健

Intel资深工程师/百度资深研发工程师

Spinach：基于Spark SQL在生产环境中实现即席查询

5月12日下午13:30-14:20

演讲简介：

随着Spark的广泛应用，在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理，但对于秒级的查询需求，Spark SQL还有不足之处，而很多企业对此也有很大需求。我们基于Spark SQL开发的项目Spinach，正是为了满足秒级甚至更高要求的即席查询需求。

具体来说，Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制，将数据缓存在堆外内存中，可以有效加速数据的加载。同时，Spinach拓展了Spark SQL的DDL，允许用户自定义索引，目前支持B+树索引和布隆过滤器，可以让用户根据数据特点定义高效的索引，进一步减少IO操作，提升查询效率。Spinach运行时与Spark SQL共享同一个进程，不会引入额外的维护成本。

2016年，Intel与百度合作的Spinach平台首个版本在百度内部开放使用，帮助多个核心产品团队从过去低效的批量作业查询方式升级至即席查询模式。在百度的凤巢广告系统中，数据工程师基于每日数T的点击、展现日志进行广告效果分析，Spinach将查询性能提升至原生Spark SQL的5倍，尤其在复杂查询及大数据量分析的场景下将平均延迟从分钟级降低至秒级，同时仅增加3%的索引数据消耗。

黄东旭

PingCAP CTO

When TiDB meets Kubernetes

5月12日下午14:20-15:10

演讲简介：

TiDB 是一个开源的分布式关系型数据库，Kubernetes 是 Google 开源的分布式集群调度器，集群调度器也是未来云的核心基础组件之一，但是一直以来，现有的集群调度方案对于带状态的服务，例如数据库这样的系统的支持略显单薄。分布式数据库作为另一个云的基础组件，如何与调度器结合，包括平滑的容灾，无痛的滚动更新等是一个很前沿的话题，本次 Talk 我会介绍一下在 TiDB 这边做的一些与 Kubernetes 整合的开创性的工作和经验分享。

刘群策

甲骨文公司资深大数据架构师

甲骨文大数据云服务

5月12日下午15:10-16:00

演讲简介：

甲骨文作为业界领先的云计算提供商，提供公有云、私有云和混合云的解决方案。本演讲介绍在公有云方面，甲骨文提供的完整的、基于多种技术组合的大数据解决方案，包括实时的数据采集，快速的整理和计算，精确化的呈现，一个从数据到智慧的全过程，带来了哪些信息技术的革命，以及在制造、能源、交通、电信、政府、金融等各个行业如何发挥着重要作用。

Joel Perez

云和恩墨首席技术顾问&Oracle ACE总监

The Best Practices for Moving Oracle Database to the Cloud

5月12日下午16:20-17:10

演讲简介：

This session covers how best to move your on-premises Oracle Database and other development instances to a public cloud—such as data and development platform migration—and outlines and details best practices for DBAs, IT staff, and developers. The session also details available options for DBAs and developers for cloud application development and what mix of technologies can be used. Learn about Oracle Database backup, failover, and recovery options, Oracle GoldenGate Cloud Service.

张粤磊

飞谷云创始人

基于私有云的大数据运维实践

5月12日下午17:10-18:00

演讲简介：

飞谷云是一个基于openstack搭建的各种大数据场景的实践平台，2014开始基于openstack的J版本的KVM的实例来构建hadoop大数据系统，在运维上网络，存储等做了很多适合hadoop性能参数的调整和版本升级（如K相对于J版本cinder组件改善），但openstack本身也有很多hadoop集群状态管理无法实现的地方，2016年至今基于openstack结合docer的Nova Docker，Heat Docker plugin使用对比，在hadoop集群管理信息监控和性能上应用上也有各自的优缺点。本分享将对基于多hadoop版本管理运维的云平台构建经验及教训做下分享。

5月12日大会议程预告

扫码查看，大会3天完整议程

gaokeke

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
基于Spark SQL在生产环境中实现即席查询

大数据的核心是处理大量的数据，然后分析，挖掘。大数据火的本质原因是互联网的兴起带动大量用户使用，由此产生大量数据，这么多数据是以前的单台机器无法在规定时间内处理完的，由此产生了需要用多台...
复制链接

扫一扫