数据中台建设方案-基于大数据平台

数据中台建设方案

-基于大数据平台-

1数据中台建设方案

1.1 总体建设方案

1.2大数据集成平台

1.3大数据计算平台

1.3.1数据计算层建设

计算层技术含量最高,最为活跃,发展也最为迅速。计算层主要实现各类数据的加工、处理和计算,为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低,主要依赖于该层组件的发展。

本建设方案满足甲方对于数据计算层建设的基本要求:

利用了MapReduce、Spark 、MPP 、Zookeeper、Yarn、HBase、Mahout 等开源组件和技术;实现了实现各类数据的加工、处理和计算,为上层应用提供良好和充分的数据支持;并且提供了更高效的列式数据库Hyperbase、跨内存/闪存/磁盘等介质的分布式混合列式存储Holodesk、一体化的机器学习平台Discover和拖拽式图形界面工具Midas。可以给甲方后续建设提供更丰富、更多样性的选择。

1.3.1.1分布式数据仓库

Transwarp Inceptor是一个企业级数据仓库,最下面是存储层接口层,Inceptor可将存储在分布式列存、文本/列存/事务表、Hyperbase、Search、DB2、Oracle中的数据,通过提供的对应驱动层,进入到执行层。在执行层中,Inceptor提供了混合负载调度器SLA Scheduler和分布式执行引擎。在编译层提供了各种编译器和优化器,以及元数据服务。最上层提供完整的交互访问接口和各类安全管控。

Spark是Map/Reduce计算模式的一个全新实现。Spark的创新之一是提出RDD(Resilient Distributed Dataset)的概念,所有的统计分析任务是由对RDD的若干基本操作组成。RDD可以被驻留在内存中,后续的任务可以直接读取内存中的数据,因此速度可以得到很大提升。Spark的创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图,根据数据之间的依赖性把相邻的任务合并,从而减少了大量的中间结果输出,极大减少了磁盘I/O,使得复杂数据分析任务更高效。从这个意义上来说,如果任务够复杂,迭代次数够多,Spark比Map/Reduce快100倍或1000倍都很容易。基于这两点创新,可在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代Map/Reduce的地位。

Inceptor可以分析存储在HDFS,HBase或者Holodesk分布式缓存中的数据,可以处理的数据量从GB到数十TB,即使数据源或者中间结果的大小远大于内存,也可高效处理。另外也通过改进Spark和YARN的组合,提高了Spark的可管理性。这些使得Inceptor成为目前真正适合企业生产环境7x24小时部署的Spark衍生产品。同时星环不仅仅是将Spark作为一个缺省计算引擎,也重写了SQL编译器,提供更加完整的SQL支持。

同时,星环通过改进Spark使之更好的与HBase融合。星环基于HBase的产品叫做Hyperbase,通过结合Inceptor,可以为HBase提供完整的SQL支持,包括批量SQL统计、OLAP分析以及高并发低延时的SQL查询能力,使得HBase的应用可以从简单的在线查询应用扩展到复杂分析和在线应用结合的混合应用中,大大拓展了HBase的应用范围。这两个产品的组合使得星环在市场上处于领先地位。

SQL语法支持

标准SQL语句支持

TDH提供ANSI SQL2003语法支持以及PL/SQL过程语言扩展,并且可以自动识别HiveQL、SQL2003和PL/SQL语法,在保持跟Hive兼容的同时提供更强大的SQL支持。减少系统迁移和新应用开发成本。支持SQL2003语法,支持TD SQL语法,支持Oracle PL/SQL和IBM DB2 SQL/PL存储过程。

由于现有的数据仓库应用大都基于标准SQL,对于客户,现有应用也大量使用了PL/SQL,要从现有数据库系统迁移到Hadoop,标准SQL以及PL/SQL的支持显得尤为重要。TDH可以支持标准SQL以及PL/SQL,支持复杂的数据仓库类分析应用,使得从原有数据库系统迁移到Hadoop更为容易,可以帮助企业建立高速可扩展的数据仓库和数据集市。

Inceptor支持以下SQL要求:

支持创建数据库、删除数据库、配置数据库的容量

支持创建表、删除表、增加表字段

支持创建、修改、删除视图CREATE/DROP/ALERT VIEW

支持表数据类型包括所有的结构化数据类型如整形、字符串、浮点型、布尔型、二进制、时间类型等,文档数据类型如XML,JSON,BSON,以及针对图片类文件的LOB类型;

支持创建索引、删除索引;

支持所有类型的表的连接,支持表的集合运算包括求并集、求交集、求差集,支持多层的SQL嵌套查询,支持 IN/Not IN/Exists/Not Exists 等复杂查询

支持字符串、日期等常用操作函数

支持最大值、最小值、平均值等聚合函数,支持常用Oracle函数,

支持select into、insert into、merge into 功能

支持完整的增删改语法,具体包括支持单条或者多条插入,支持单条更新和用子查询更新,支持从表中删除数据,支持Merge Into功能。

支持子查询 (sub-query factoring),包括非同步子查询(Non-correlated Sub-query)和同步子查询(Correlated Sub-query),支持子查询的多层嵌套。

支持在 where clause 子句使用同步和非同步subquery (包括IN 和 NOT IN)

支持在From clause子句中使用非同步subquery

支持 Having clause子句使用非同步subquery

支持 Select list里面使用同步和非同步 subquery

支持 WITH AS 语法,并可在系统运行中实时决定是否选择物理化 WITH AS来加速查询

支持 Inner JOIN, Outer JOIN (Left Outer JOIN, Right Outer JOIN, Full Outer JOIN), Implicit JOIN, Nature JOIN, Cross JOIN,SELF JOIN, Non-equi JOIN(JOIN条件可以是不等式),Map JOIN,left semi join 和 left anti semi join

支持 union, intersect, except操作,并且他们可以作为top level operator

支持 in 、between 以及运算符(+ - * )直接操作 subquery

具备较完整的事务处理支持(包括嵌套事务),支持BEGIN TRANSACTION, END TRANSACTION, COMMIT, ROLLBACK操作,支持自治事务

支持基于预定义维度的数据查询,支持简单查询、组合查询、模糊查询等。

支持标准DDL,DML,事务处理,支持SQL 2003 等,支持SQL子查询及窗口函数。

支持基本数据类型、复杂数据类型、with as 子句、同步子查询、相关子查询、嵌套子查询,窗口函数、聚合函数、类型转换、集合函数、操作符、Oracle PL/SQL过程扩展,HiveQL。

支持数据累加、统计、关联、比对、去重等各种常见的数据分析场景。

支持标准SQL的方式来访问Hadoop生态系统中的其他组件模块,如Hive、Hbase、hdfs中的文件,并能跨数据源做关联查询和分析。

TDH平台全面支持HiveQL、SQL2003标准等,可以有效支持数据仓库中常用的数据立方统计(CUBE/ROLLUP)、窗口聚合统计、嵌套(nested)/同步(correlated)子查询、子表定义和操作,这些功能无法用HiveQL有效实现。

TDH平台提供了对SQL2003标准最全面的支持,最大程度方便用户开发基于Hadoop平台的应用和现有应用的迁移。

Inceptor中对于SQL的相关支持可参见下表:

函数支持

聚合函数

count, sum, avg, min, max, variance, var_pop, var_samp, stddev_pop, stddev_samp, covar_pop, covar_samp, corr, percentile, percentile_approx, histogram_numeric, collect_set, collect_list, ntile

窗口函数

sum, avg, min, max, count

dense_rank, group_max, group_min, group_sum, rank, row_number

类型转换函数

binary, cast(expr as <type>)

UDTF

explode, inline, json_tuple, parse_url_tuple, posexplode, stack

集合函数

size, map_keys, map_values, array_contains, sort_array

其他功能函数

to_card_15_to_18(15位身份证号转18位)

数据类型支持

基本

数据类型

TINYINT, SMALLINT

INT, INTEGER, BIGINT

BOOLEAN

FLOAT, DOUBLE

DATE, DATETIME, INTERVAL

TIMESTAMP

STRING

BINRAY

VARCHAR, VARCHAR2

DECIMAL,DECIMAL(no.,no.), DEC(no., no.)

NUMERIC(no.,no.),NUMBER(no., no.)

复杂

数据类型

LIST

MAP

STRUCT

UNION

WITH AS语句、嵌套查询支持

WITH AS定义子表

SQL’92的WITH AS语句

WITH DEPT_COSTS AS --查询出部门的总工资

(SELECT D.DNAME,SUM(E.SAL)DEPT_TOTAL

FROM DEPT D, EMP E

WHERE E.DEPTNO = D.DEPTNO

GROUP BY D.DNAME),

AVE_COST AS --查询出部门的平均工资,在后一个WITH语句中可以引用前一个定义的WITH语句

(SELECT SUM(DEPT_TOTAL) / COUNT(*) AVG_SUM FROM DEPT_COSTS)

SELECT *

FROM DEPT_COSTS DC

WHERE DC.DEPT_TOTAL >

(SELECT AC.AVG_SUM FROM AVE_COST AC) --进行比较

嵌套

子查询

子查询在FROM子句中

SELECT employees.employee_number, employees.name

FROM employees

INNERJOIN (SELECT department, AVG(salary) AS department_average

FROM employees GROUPBY department) AS temp

ON employees.department = temp.department

WHERE employees.salary > temp.department_average;

子查询在WHERE子句中

SELECT e.name, e.salary, e.department FROM employess e

WHERE e.employee_id = (SELECT MIN(employee_id) FROM employess)

子查询在SELECT子句中

SELECT employee_number, name,

(SELECT AVG(salary) FROM employees) AS department_average

FROM employees;

子查询在HAVING子句中

SELECT department_id, manager_id FROM employees

GROUP BY department_id, manager_id

HAVING department_id =

(SELECT max(department_id) FROM employees x )

ORDER BY department_id;

子查询、窗口函数、Rollup扩展支持

CORRELATED SUB-QUERY

相关/同步子查询

子查询在WHERE子句中

SELECT employee_number, name

FROM employees AS Bob

WHERE salary = ( SELECT AVG(salary) FROM employees WHERE department = Bob.department);

子查询在SELECT子句中

SELECT employee_number, name,

(SELECT AVG(salary) FROM employees WHERE department = Bob.department) AS department_average

FROM employees AS Bob;

子查询在HAVING子句中

SELECT department_id, manager_id FROM employees

GROUP BY department_id, manager_id

HAVING department_id =

(SELECT department_id FROM employees x

WHERE x.department_id = employees.department_id)

ORDER BY department_id;

窗口

聚合函数

OVER子句

SELECT SalesOrderID, CustomerID,OrderDate, TotalDue,

SUM(TotalDue) OVER (PARTITION BY CustomerID) AS CustomerTotal,

SUM(TotalDue) OVER() AS GrandTotal,

AVG(TotalDue) OVER (PARTITION BY CustomerID) AS AvgCustSale

FROM Sales.SalesOrderHeader OuterQuery

ORDER BY CustomerID;

Group By扩展

Rollup 生成简单的GROUP BY 聚合行以及小计行或超聚合行,还生成一个总计行

SELECT a, b, c, SUM ( <expression> ) FROM T GROUP BY ROLLUP (a,b,c); 会为 (a, b, c)、(a, b) 和 (a) 值的每个唯一组合生成一个带有小计的行。 还将计算一个总计行。

Cube生成简单的GROUP BY 聚合行、ROLLUP 超聚合行和交叉表格行

SELECT a, b, c, SUM (<expression>) FROM T GROUP BY CUBE (a,b,c);

会为 (a, b, c)、(a, b)、(a, c)、(b, c)、(a)、(b) 和 (c) 值的每个唯一组合生成一个带有小计的行,还会生成一个总计行。

多种数据访问形式支持

CLI命令行支持

大数据计算服务提供基于Beeline的命令行终端接口,通过JDBC连接大数据计算服务控制台,用户可以通过Beeline,使用SQL语言,对大数据计算服务中的数据进行检索、查询、关联等分析操作。

标准化API接口

平台对上层应用提供各种开发接口,包括JAVA API接口,REST接口,JDBC/ODBC接口以及R语言等接口。通过这些接口,平台上层应用可以通过平台开放的JAVA API进行二次开发,可以完全支持常见的应用开发框架,如Hibernate, mybatis。平台开放的API完全兼容Hadoop生态圈的所有组件的API,同时提供额外并行算法库的Java API给上层应用调用;平台上层应用开发人员可以通过平台开放的REST API接口,对接平台作业调度工具或HUE图形化界面等,进行作业创建和管理;平台上层应用开发人员可以通过平台开放的标准JDBC/ODBC接口,使用SQL语言交互式查询和分析数据平台的海量数据;平台上层应用开发人员可以使用R语言接口进行交互式数据挖掘探索。

平台提供的主要开发接口描述如下:

数据接口

接口描述

接口使用对象

JDBC/ODBC接口

TDH支持标准的SQL形式访问数据,提供ANSI SQL2003语法支持以及存储过程语言支持。使得复杂的数据仓库、数据集市应用可以快速落地到TDH平台。

上层应用开发人员

REST接口

TDH支持通过REST接口对接Transwarp Manager、HDFS、YARN、Hyperbase、Inceptor、OOZIE、HUE等服务。

上层应用开发人员

Java API接口

TDH支持通过JAVA API编程接口对接HDFS、YARN、Kafka、、flume、sqoop、Hyperbase、Inceptor等服务。

上层应用开发人员

R接口

提供RStudio Web图形化开发界面,通过R语言调用并行算法库,并可通过并行化算子二次开发并行化算法。

上层应用开发人员

SQL开发辅助工具

Waterdrop是为开发人员和数据库管理人员提供的数据库管理工具,它可进行跨平台管理,可作为Inceptor SQL客户端,除了Inceptor还支持并兼容其余多种数据库。它具有有四个功能模块:DatabaseNavigator、SQL Editor、SQL Executor、Data Viewer/Eidtor,分别用来帮助用户实现数据库管理、SQL编辑、SQL执行、数据操作这四项功能。

Waterdrop提供一个类似Eclipse的环境,用户可以通过Waterdrop连接Inceptor并在之上做数据库开发。

Waterdrop的开发环境如下:

操作系统/数据库支持度

Waterdrop支持的操作系统有:Windows(32/64位),Linux(32/64位),Mac OS X(64位),Solaris(32位)

Waterdrop支持连接的数据库有:

Inceptor

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《大数据大创新:云上数据台之道》是一本关于大数据和云计算的书籍,旨在探讨如何通过构建数据台实现企业的数字化转型和创新发展。 首先,该书说明了大数据和云计算对于企业的重要性和价值。大数据作为一种新的生产要素,可以帮助企业挖掘数据蕴藏的商业价值,并于竞争获得优势。而云计算作为一种灵活的计算和存储方式,为企业提供了高效、可扩展和经济的解决方案。 接着,书介绍了构建数据台的关键要素和方法。数据台是一种基于云计算的数据管理平台,将企业内外部的各种数据进行整合和管理,形成一套完整的数据体系。通过数据台,企业可以实现数据的集管理、整理和加工,从而实现数据共享和分析,为企业的决策提供有效支持。 此外,书还提供了一些成功案例和最佳实践。通过分析这些案例,读者可以了解到企业在利用大数据和云计算方面的具体做法和效果。这些案例涵盖了不同行业和领域,旨在帮助读者了解如何根据自身需求和条件进行实践和创新。 最后,该书还强调了数据建设的挑战和未来发展趋势。由于大数据和云计算技术的快速进步和应用,数据台正面临着各种挑战和机遇。此书通过对挑战的分析和展望,为企业提供了一些建设数据台的思路和方法,并对未来的发展趋势给出了一定的预测。 总而言之,《大数据大创新:云上数据台之道》是一本关于大数据和云计算的实践指南,旨在通过构建数据台实现企业的数字化转型和创新发展,为企业和个人对大数据和云计算技术有兴趣的读者提供了宝贵的参考和指导。 ### 回答2: 《大数据大创新:云上数据台之道》是一本关于大数据和创新的书籍,重点讲述了云上数据台的运作方式和方法。 云上数据台是指将企业内部、外部以及合作伙伴的各类数据整合和利用起来,在云端建立一个统一的数据心,实现数据的共享、协同和挖掘,从而帮助企业进行创新和决策。 这本书深入浅出地介绍了云上数据台的基本概念和架构,以及如何建立和运营一个高效的数据台。它提供了一系列实用的案例和方法,帮助读者了解如何从海量的数据提取有价值的信息,并将其应用于企业的决策和创新过程。 通过云上数据台,企业可以更快速地获取和分析数据,实现数据的精准管理和使用。这有助于企业加快创新步伐,提高市场竞争力。同时,云上数据台还可以帮助企业进行精细化运营,优化资源配置,实现成本降低和效益最大化。 《大数据大创新:云上数据台之道》还介绍了云上数据台的发展趋势和未来的挑战,为读者提供了对未来数据领域的思考和展望。它为广大企业家、管理人员和数据从业者提供了一份宝贵的参考资料和指导。 总之,本书全面而深入地介绍了云上数据台的概念、架构和应用,并通过实用案例和方法帮助读者掌握相关技术和工具,使其能够在大数据时代更好地创新和决策。它是一本对于大数据和创新感兴趣的人士非常有价值的读物。 ### 回答3: 《大数据大创新:云上数据台之道》是一本介绍大数据数据台领域的书籍,其包含了对云上数据台发展的思考和实践经验。 大数据是当前快速发展的领域,通过收集、存储和分析海量数据,可以为企业提供更深入的洞察和决策支持。而数据台作为大数据的基础设施,是连接各个业务系统和数据源的枢纽,能够实现数据的集成、共享和加值。 该书首先介绍了大数据数据台的基本概念和发展趋势。随着云计算技术的成熟和普及,云上数据台成为了大数据发展的重要方向。云上数据台能够提供弹性的计算和存储资源,解决了传统数据台的资源瓶颈问题。 接着,书详细分析了云上数据台的架构和关键技术。云上数据台需要建立高效可靠的数据集成、数据治理和数据分析能力。同时,还需要关注数据安全和隐私保护的问题。书给出了一些实际案例和解决方案,帮助读者更好地理解和应用云上数据台。 该书还探讨了云上数据台与创新的关系。通过云计算、人工智能和物联网等技术的结合,云上数据台能够为企业创新带来更多的机会。通过对大数据的挖掘和分析,可以发现新的商业模式和增长点,促进企业的创新和竞争力。 总的来说,《大数据大创新:云上数据台之道》是一本介绍大数据数据台领域的实用性书籍,对于想要了解和应用云上数据台的人来说,是一本值得阅读的参考书。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值