原创

SequoiaDB x Spark 新主流架构引领企业级应用

标签: SequoiaDBSpark
492人阅读 评论(0) 收藏 举报

Spark summit_看图王.png


6月,汇集当今大数据界精英的Spark Summit 2017盛大召开,Spark作为当今最炙手可热的大数据技术框架,向全世界展示了最新的技术成果、生态体系及未来发展规划。

 

巨杉作为业内领先的分布式数据库厂商,也是Spark全球的14家发行商之一,受邀在本次大会做了题为“分布式数据库+Spark架构和应用”的分享。巨杉数据库联合创始人、CTO及总架构师也将给大家分享大会的见闻以及这一架构的发展和应用情况。


Spark全面进化

扩大生态助力人工智能

随着Spark 2.2 版本的发布,Spark性能有了更大提高。在Spark Streaming方面,最新版本在相同条件下达到了常用流处理架构(如Apache Flink以及Kafka Streaming)的5倍以上,超过6000万记录/秒。在测试中,Spark对于重要负载的端到端响应时间也已经达到了亚毫秒级别,真正实现了实时性。

图片3.png

Spark 公布的流处理性能对比图


除了性能的提升,Spark的Structured Streaming体系也基本实现了产品化。在性能、稳定性的保证下,Structured Streaming支持更多的大数据体系架构,从图处理到深度学习都能提供最高性能产品级别的实时流处理支持。

 

此外,在大热的人工智能方面,Spark也开始了全面的支持。Spark 2.2版本加入了完整的Deep Learning Pipeline,作为深度学习的数据源,提供全面的数据支持。

 

王涛认为,“Data is the new oil!”十分准确地描述了大数据和人工智能间的定位问题。可以说,人工智能是新的引擎,大数据就是引擎所需要的能源。数据是深度学习技术的基础,只有两者齐备,人工智能才能真正“自我学习和自我进化”。Spark作为大数据领域最受欢迎的高性能分析处理框架和流处理框架之一,全面支撑人工智能和Deep learning也是必然的。使用Spark最新的Deep Learning Pipeline套件,用户可以在现有的Spark机器学习工作流程中调用深度学习库,对成型的模型进行迁移学习,利用Spark的分布式计算引擎通过AI处理复杂数据。Databricks首席技术专家Matei Zaharia也表示,这一套件的正式发布,是AI开发普及化、大众化的重要一步,可以帮助更多用户更好的入门AI和深度学习技术,能大大加强Spark技术在未来技术领域中的重要性。

 

毋庸置疑的是,Spark的产品化进度正在加快,也在不断扩大自己的技术生态。


分布式数据库+Spark架构引领主流

SequoiaDB x Spark完善大数据生态

近年来,“分布式数据库+Spark”的架构随着Spark的应用中发展成为其中一套主流架构。分布式数据库提供的海量数据存储管理能力以及高并发地实时数据查询交互,与Spark的批处理实现了完美的互补,是Spark应用架构不可或缺的重要支撑。

 

巨杉是国内对于“分布式数据库+Spark”这套架构最早的实践者之一,SequoiaDB的实时高性能、弹性扩展性成为了这套架构的坚实数据基础。从2015年至今,SequoiaDB分布式数据库与Spark的深度整合架构已经十分成熟,目前已经有许多银行等大型企业在数据加工、交互式访问等生产系统中应用了这种架构。

 

为实现SequoiaDB分布式数据库与Spark的深度整合,技术方面,通过巨杉自己的连接器将分布式数据库与Spark架构进行深度对接。


· 对接的方式同时支持文件块和datanode两种方式,并且可以很好的支持查询条件下压,通过匹配巨杉数据库自身的索引,提高查询效率。

· SequoiaDB for Spark Connector在生成查询的访问计划时,还能智能判断查询的数据和Spark 计算Worker的位置,默认优先匹配本地数据,从而减少数据在网络传输的开销。

· 连接器可以实现文件块级别的并发,充分利用分布式多节点有效提高集群整体I/O吞吐能力。

图片5_看图王.jpg

分布式数据库+Spark 技术架构图


Spark默认支持从文本文件和HDFS文件等数据源中获取计算的数据来源也支持将第三方的产品作为Spark计算框架的计算任务的数据来运之一。对于分布式数据库,除了能够支持海量数据分布式存储外,还能够为用户提供多索引功能,支持用户在高并发场景下高性能实时数据访问。

 

分布式数据库+Spark两者结合主要的使用场景是:在海量数据中,通过条件检索记录和在海量数据中,针对某些特定范围记录,例如针对过去一个月的记录进行统计分析。这类有明确查询条件的查询和分析,非常适合Spark+分布式数据库。分布式数据库+Spark架构将能实现从数据高并发实时交互查询,到高性能数据计算再到数据实时流处理的全功能覆盖。

 

在应用实践上,某股份制银行使用巨杉数据库构建近线数据平台,通过SequoiaDB+Spark架构,SequoiaDB保证了全量近线数据的存储和实时在线,同时提供了全量数据的实时查询访问,而Spark则提供了条件检索和统计分析的功能。


一方面将用户的全量历史数据做到全面在线化,使得银行客户能够通过柜面应用、手机、网银等多渠道访问到自己开户以来所有的交易行为;另一方面对银行内部的行员提供自由报表分析、支持公检法历史数据查询等多种业务。

 

此外,某银行通过SequoiaDB+Spark的底层数据平台,为其“实时头寸” 解决了原有报表系统只能做“T+1”的限制,为系统提供了高性能的实时数据分析、查询、展现。其中,Spark的高性能提高了分析统计的效率,而SequoiaDB的数据实时访问则保证了数据的真正“实时性”。

 

对于接下来和Spark合作的方向,王涛表示,随着Spark生态的不断丰富以及其技术组件对不同技术的支持不断完善,Spark生态将会是未来大数据领域最强有力的一股技术力量。

 

作为Spark全球发行商之一,巨杉会进一步加强与Spark/Databricks的合作,加大SequoiaDB+Spark方案并力求与Spark框架进行更深度的对接,实现从数据高并发实时交互查询访问,到高性能数据计算再到数据实时流处理的全功能覆盖,使企业用户能够获得最高性能、最全面的大数据平台。




产品特性
解决方案与案例 
数据库下载 
技术文档 

微信客服:
sequoiadb111



%$(LAXO}X%1H2{JOLG640GP.jpg

0
0
查看评论

SequoiaDB x Spark 新主流架构引领企业级应用

分布式数据库+Spark是企业级大数据应用的新兴的一套架构,SequoiaDB 是国内这一架构最早的实践者,我们就来解密 SequoiaDB x Spark 架构的优势以及应用情况。
  • SequoiaDBOfficail
  • SequoiaDBOfficail
  • 2017-07-03 16:57
  • 366

Sequoiadb与Spark的对接步骤

 最近完成了Sequoiadb与Spark的对接,为了便于之后查阅,记录如下 Sequoiadb 版本: 1.12 spark版本:1.3.1   Sequoiadb与spark对接步骤如下:   1. 配置hive-sit...
  • tianbianlan
  • tianbianlan
  • 2015-05-27 16:12
  • 379

【演讲实录】下一代企业级应用架构管理体系

在IT系统的建设和管理中,敏态和稳态似乎不可协调的两个问题,那么在企业IT系统的管理中,如何根据需求去合理管控,今天将通过王璞老师在第七届数据技术嘉年华上的分享进行详细解读。本次分享重在讲解企业系统上云后,针对应用级的管控。作者简介:王璞,数人云CEO,为美国George Mason大学计算机博士,...
  • Enmotech
  • Enmotech
  • 2017-12-29 00:00
  • 190

企业级应用的3种架构

㈠ 主机/终端模式     特点:主机负责所有的业务运算和数据的管理,终端只提供操作界面。         优点:可靠      缺点:昂贵,维护困难。   ㈡ c/s模式(cli...
  • u011939453
  • u011939453
  • 2016-11-23 09:51
  • 208

企业级应用框架的演变

企业级应用框架的演变,可以让我们了解一些框架演变带来的一些优势。
  • sai739295732
  • sai739295732
  • 2017-02-03 11:14
  • 601

.Net企业级应用架构设计之业务层设计

业务层剖析 任何复杂的任何软件都可以通过层来组织,每一层表示系统中的一个逻辑部分,一般来说,业务逻辑层中的模块包含了系统所需要的所有功能上的算法和计算过程,并于数据层和表现层交互。抽象的说,业务逻辑层是软件中专门处理业务相关任务性能的部分。 业务逻辑层表示了系统的逻辑,此处的代码将要进行必要的决断并...
  • fengyarongaa
  • fengyarongaa
  • 2012-09-09 13:08
  • 6502

主流互联网架构

转自:http://www.cnblogs.com/wuyuankun/p/3984209.html 主流互联网架构 基础知识点: Squid: Squid cache(简称为Squid)是一个流行的自由软件,它符合GNU通用公共许可证。Squid作为网页服务器的前置ca...
  • xigedanganxi
  • xigedanganxi
  • 2017-06-18 09:32
  • 1100

浅谈企业应用架构

在牛津高阶词典(第7版)中,架构(architecture)一词的解释是:the design an structure of a computer system,而架构师(architect)一词的解释是:a person who is responsible for planning or cr...
  • huifeng773950918
  • huifeng773950918
  • 2014-04-09 14:09
  • 1277

Spark作为ETL工具与SequoiaDB的结合应用

SequoiaDB企业版通过深度集成最新的Spark内存计算框架,实现了批处理分析、流处理等贴近应用的功能。存储层和计算层两层分离的架构,技术互补,是硅谷大数据新架构的主流,将分布式计算与分布式存储的能力分别发挥到了极致。在Spark最新版本中,SparkSQL对标准SQL的支持也越来越完善,更加体...
  • SequoiaDBOfficail
  • SequoiaDBOfficail
  • 2016-12-05 16:54
  • 1679

sequoiadb和mongodb简单对比图

从网上找到一张对比sequoiadb和mongodb的图,可以分别从如下几个角度对比异同。 (1) 相同点:都是属于非关系型数据库、分布式数据库,支持数据分片,满足数据分片要求的数据完备性、可重构性和无损一致性。支持多个副本数据存储,满足高可用和性能要求。并且数据模型都是基于json...
  • example440982
  • example440982
  • 2016-10-09 09:18
  • 1987