大数据平台、从数仓 到 数据中台、数据湖

数仓&数据中台 专栏收录该内容
26 篇文章 29 订阅

一、大数据平台

        大数据平台是一个技术平台。这个技术平台提供了对于大数据的分布式采集,存储,流处理和计算,实时分析等能力。在没有大数据平台前也有数据集成和管理的平台,这种平台可以实现对结构化数据本身的采集,集成和管理。

  • 数据平台是在数以万计的硬件之上建立统一的基础数据存储和计算的服务,当然我们所建设的数据平台需要周边一些辅助的服务来支撑核心服务的运行,以及一些数据平台管理类工具,辅助日常SRE工作
  • 首先是个平台,平台的用户应该有方便的使用数据或计算能力的途经,因而一个完善的大数据平台需要提供且不限于数据仓库(模型管理,数据管理),计算服务(ETL,OLAP),任务的编排调度,数据可视化等。


存储能力

  • 分布式文件系统,不论是基于磁盘还是基于内存,只是不同存储成本的文件系统,带来不同存储性能和特性
  • MQ类的主要支持数据采集和实时计算
  • 数据库主要支持查询类和实时计算,类别很多,关系型,nosql,各有千秋


计算能力

  • 离线计算,提供批处理计算能力,主要负责天,周,月等数据生产,主流的像早期的mr,后期的spark等
  • 实时计算,提供实时数据处理能力,负责实时数据生产,当然实时离线是我们人为划定的时间界限,对于引擎而言,像spark,flink都提供实时和离线的解决方案
  • 算法平台,主要提供机器学习,人工智能,数据挖掘的计算能力,算法框架的选择也是很多,当然在大数据生态还是需要运行在yarn这样资源管理平台,才可以发挥大数据的价值
  • 查询类服务,提供一些和用户交互的查询能力,像一些mpp框架等,多数提供sql查询能力


管理平台

  • 管理平台,是在原生的大数据生态的基础之上,为了更好的管理集群服务,管理集群的资源,提供灵活SRE能力和资源核算审计能力的一系列工具和合称整体架构

在这里插入图片描述

二、数据中台

        数据中台建设目标是要打通企业各个业务系统,打破数据孤岛现象,通过大数据技术,将数据统一接入大数据平台,对数据进行管理,采集、计算、存储、加工,同时统一标准并存储,形成大数据资产,提供跨系统的数据共享和复用服务,进而为客户提供高效服务。

  • 数据中台是抽象了数据能力的共性形成的数据服务能力,是一系列数据服务,用系统化思路解决数据前台对数据获取的难度,更好的赋能业务
  • 数据中台除了需要提供通用能力外,还需要提供一些业务服务能力,就是一些看上去是行业的或需求定制的数据处理分析结果的查询能力。

包括:

数据仓库

  • 数据中台包括数据仓库的全部内容,数据仓库为数据中台提供了数据对外提供服务的基础资源,数据中台将数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度
  • 大家都知道数据仓库需要分层建设,需要面向业务主题,但是规范和落地往往是有差异,中台可以帮助数仓建模流程从文档化向标准化迈进,降低由于团队认知差异带来的数仓规范不统一的风险


数据集市

  • 集市层主要面向具体应用做开发,是数仓向数据前台数据的重要连接层,数仓建设的好坏,对数据集市的建设影响很大
  • 数仓和数据集市同样都面临数据重复建设,数据不一致的问题,需要中台协助数仓和数据集市规范化落地



数据开发

  • 数据中台需要改变原来的开发模式,提供全流程的数据开发解决方案,规范开发流程的每一个步骤,达到大一统的效果
  • 维度指标元数据管理
  • 指标树主要维护了指标和指标之间关系,比如某个衍生指标是有哪些基础指标通过什么计算公式计算得到,这个关系很重要,这是做智能异动分析的基础,可以实现很多自动化的异常数据监控和分析能力
  • 指标地图主要维护了指标和数据的物理存储的关联关系,通过地图我们可以轻松到找到哪些维度指标存储到了哪些物理存储里面
  • 建模工具来帮助数仓和数据集市规范的落地,如果没有工具协助,我们制定再好的仓库分层方案,仓库建模方案都是徒劳的,经过长期的累计和人员流动,非常容易导致规范落地不标准,导致数据不一致等一系列问题
  • 开发工具主要协助RD对ETL代码管理,如果还是通过原始命令+sql文件方式来管理ETL,那开发效率会很低,而且对依赖关系和调度的管理也是问题,开发工具会贯穿几乎开发的全流程,来加速开发



数据运维

  • DQC,数据质量监控,提供日常数据质量监控能力,是保证数据一致性的基础,DQC一般提供的基础的质量监控,比如基础的同环比阈值监控,条数监控,空数据监控,均值监控等
  • SLA,数据按时生产的参考标准,etl任务健康度评估的重要指标,保证数据按时交付,确定etl任务的优化目标
  • 异动分析,为业务提供自动化的数据波动分析能力,帮助业务人员定位异常根源,快速调整业务决策
  • 资产管理,数据中台的核心资源就是数据,数据以资产形式管理起来,可以是我们精确的知道我们拥有数据的情况,以方便对数据资源的管理
  • 生命周期管理,数据都有时效性,随着时间推移,需要对数据进行生命周期管理,做合理的清理,属于数据治理的子模块



三、赋能对象,数据提供服务



赋能管理者

  • 赋能管理者,大盘类,大屏类产品,提供综合的,上层的业务视角的数据,来为管理者提供管理决策需要的基础数据
  • 提升一点,可以配合业务经验和AI,来提供辅助决策意见,辅助管理者做决策




赋能业务运营

  • 赋能业务运营,报表类,自助分析类产品,提供了比支持管理者产品更细粒度的数据,可以渗透到业务细节中,为底层运营决策提供精准的数据支持能力



赋能业务中台,各业务系统(风控系统、推荐系统)

  • 赋能业务中台,没有数据的赋能,业务中台也还是偏向于业务公共服务的抽象,只有数据中台的赋能,才能使业务系统是一个智能化的业务系统
  • 比如像"千人千面"的推荐系统



赋能数据变现

  • 赋能数据变现,精准营销的广告系统,为广告带来更高的流水



赋能合作伙伴

  • 赋能合作伙伴,强大的数据服务能力,可以为合作伙伴提供正确的决策方向,达到共赢的状态

三、大数据平台与数据中台的区别与联系

如果整个数据中台建没有大数据平台,那么大数据平台也仅仅是一个底层技术平台和技术实现手段。




区别

  • 核心区别是-是否跟业务强相关
  • 数据平台和业务的联系并不密切,提供基础的存储,计算,调度,数仓工具等基础的技术服务,至于业务数据怎么存储,数据表如何组织,数据模型如何建,数据如何服务业务,数据平台并不关心
  • 数据中台的目的是通过系统化思路的去组织数据,让数据更好的服务业务,包括数据前台的报表,自助分析,OLAP,维度指标管理,业务中台等



联系

  • 数据平台是数据中台的基石,数据中台要基于需求业务体系,在数据平台之上去建设数据体系
  • 数据中台的建设,也会给数据平台带来更多的技术需求和压力,促进数据平台技术栈更加多样性,性能向更优化方向发展

大数据平台更强调技术组件及数据数据中台则更强调数据的使用

四、数据仓库和数据中台区别

数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库。但是两者的数据源和建立数仓的目标以及数据应用的方向都存在很大差异。

  1. 数据源:数据中台的数据来源可以是结构化数据或者非结构化的数据。而传统数仓的数据来源主要是业务数据库,数据格式也是以结构化数据为主。
  2. 数据服务:数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。就像做菜一样,按照标准化的菜名,先把所有可能用到的材料都准备好。而传统的数仓主要用来做BI的报表,目的性很单一,只抽取和清洗该相关分析报表用到基础数据,新增一张报表,就要从底层到上层再做一次。

数据中台提供的能力

数据中台最终要落地到『数据』和『能力』两个方面上,数据是指企业生产过程中产生的数据;能力是指在数据处理、利用、精准赋能方面的体现出的优势。数据中台需要帮助企业建立起竞争优势,对内做到数据及时的开放和共享,对外能够建立起竞争壁垒和护城河。数据中台需提供以下几种能力:

大数据平台建设系列:(一)浅谈数据中台提供的能力

数据中台需提供的能力

1.数据资产管理:数据资产管理能力是指数据仓库(实时数仓、离线数仓)建设、数据质量监控、数据指标体系等数据管理能力,将数据定义为一种资产或服务为业务赋能;

数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。

2.数据开放共享:数据不能仅仅止步于数据仓库,变成死数据,流转起来的数据才能发挥其价值,数据开放共享能力需要做到对企业内部在数据需求方面的予取予求,指哪打哪,精准赋能,一般会通过报表平台、BI工具、API服务的方式实现。

3.开发协作调度:开发协作调度能力主要解决数据处理的效率问题,通过开发平台的方式提升离线分析、实时分析、机器学习、人工智能等数据处理效率,提升数据流通速度;

4.数据采集迁移:数据采集迁移能力解决数据源头问题,通过统一的方式收集业务数据,在合规合法的范围内采集企业内部所需要的数据。同时能够完成数据在企业内部迁移流转。

5.平台运维管控:良好的运维管控能力,能够保障计算资源、存储资源正常运行,保证数据正常生产和产出。主要是指大数据生态工具的运维管控能力。

6.数据可视化及自助分析:数据可视化主要解决数据展现能力,利用图表的方式诠释数据意义,更好的理解和利用数据;自助分析能力让业务人员,产品等非技术人员开展数据分析工作,做到人人都是数据分析师。

数据治理:传统的数据治理通常包含数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容。

查询服务:输入特定的查询条件,返回该条件下的数据,以API形式供上层应用调用。

1)支持配置查询标识,底层数据组织一般会对该标识建立索引,以加快查询速度

2)支持配置过滤项

3)支持查询结果配置,包括数据排序规则和分页规则。

分析服务:借助分析组件高效的大数据分析能力,对数据进行关联分析,分析结果通过API形式供上层应用调用。

1)支持多源数据接入:企业的数据经过清洗加工转换成数据资产后,最终通过服务作用于业务系统,基于企业异构存储的现状,要求分析服务能够支持与Hive、ES、Greenplum、MySQL、Oracle、本地文件等多种数据源进行连接。

2)高性能即席查询:随着企业数据爆发式增长,传统的数据分析工具遇到分析能力的瓶颈,也就是对大数据量的分析越来越乏力。因此,这就要求分析服务内置高速计算引擎,以对数据进行高性能的即席计算,实现亿级数据毫秒级(至多秒级)分析和计算,减少用户等待时间。

3)多维数据分析

分析服务除了支持常规的数据分析、上卷下钻、切片切块之外,还应该支持多维的数据分析以及深层次的数据挖掘,发现数据背后的关联关系。

4)灵活对接业务系统

推荐服务:按约定的格式提供历史日志行为数据和实时访问数据,推荐模型就会生成相应的推荐API,从而为上层应用提供推荐服务。

推荐服务即所谓的千人千面,对不同的人对物的行为进行数据挖掘,构建每个人与物之间的关系程度,来推荐人、物以满足用户的兴趣爱好,以提升用户对业务的粘性。每个人打开手机淘宝看到的内容都不一样,这就是一种基于人的兴趣爱好的推荐服务能力。

1)支持不同行业的推荐:不同行业背后的推荐逻辑是有区别的

2)支持不同场景的推荐:以内容资讯为例,在用户冷启动场景下,应该推荐哪些资讯?在用户已有浏览行为的场景下,又该为其推荐哪些资讯?

3)支持推荐效果优化:从导入的原始数据开始,经过推荐组件生成推荐数据,再根据用户的浏览数据不断修正推荐模型,从而使推荐效果不断优化

二、数据中台架构与技术选型

1、数据中台架构核心组成

我认为的数据中台核心架构包括四大组成部分,具体是:

  • 底座是数据基础平台,包括数据采集平台&计算平台&存储平台,这些可以自建也可以使用云计算服务;

  • 中间部分两大块是中台的公共数据区,公共数据区包括数据仓库(数据湖) ,主要负责公共数据模型研发,还包括统一指标(标签)平台,负责把模型组织成可以对外服务的数据,例如数据指标、数据标签;

  • 上层是数据应用服务层,主要将公共数据区的数据对外包装并提供服务,包括数据接口平台、多维查询平台,数据可视化平台、数据分析平台等。

另外,数据研发平台和数据管理平台贯穿始终,其中:

1)数据开发平台包括数据开发的各类工具组合,例如:数据管道工具(比如数据接入、数据导出)、模型设计工具、脚本开发工具、数据调度工具等。

2)数据管理平台包括统一元数据管理、数据质量管理、数据生命周期管理。针对数据全链路的数据管理,保证数据中台可以监控数据链路中的数据流向、数据使用效果、数据生命周期,以衡量数据的价值与成本。

以上是数据中台的核心部分,数据中台的组成也可以更加丰富,比如包括:数据资产平台、算法平台等等。

数据湖

一、数据湖的定义

维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。

数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。

不管是传统数仓承载的结构化数据还是半结构化数据、非结构化数据、二进制数据等任意类型的数据,数据湖都可以轻松实现采集、存储和分析。

 一个数据湖可以存储:

  1. 结构化数据(如关系型数据库中的表),
  2. 半结构化数据(如CSV、日志、XML、JSON),
  3. 非结构化数据(如电子邮件、文档、PDF)
  4. 二进制数据(如图形、音频、视频)。

更为人性化的是,数据湖可根据企业的业务需求提供可大可小的弹性扩充,数据可在治理规则下自由流动,采用统一的存储引擎,支持多模式计算引擎,可以运行从控制面板可视化大数据处理、实时分析机器学习等不同类型的分析,深度挖掘数据价值进行预测分析,并保证了数据一致性、可治理和安全性的实现。

同时,数据湖无需任何预处理即可对数据进行采集、存储和分析,还能消除数据采集和存储的复杂性,加速应用数据,赋能广大研发者、数据科学家、分析师实现对跨平台、跨语言、跨领域的所有数据进行高效分析和处理,并且可与企业业务数据库和数据仓库无缝集成,扩展现有数据应用,进一步助力企业大数据中台实现优化升级

       但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。

二、数据湖的参考架构

1、数据集成能力(数据接入)

1)接入不同数据源,包括数据库中的表(关系型或者非关系型)、各种格式的文件(csv、json、文档等)、数据流、ETL工具(Kafka、Logstash、DataX等)转换后的数据、应用API获取的数据(如日志等);

2)自动生成元数据信息,确保进入数据湖的数据都有元数据;

3)提供统一的接入方式,如统一的API或者接口;

2、数据存储

数据湖存储的数据量巨大且来源多样,数据湖应该支持异构和多样的存储,如HDFS、HBase、Hive等;

3、数据搜索查询

数据湖中拥有海量的数据,对于用户来说,明确知道数据湖中数据的位置,快速的查找到数据,是一个非常重要的功能。

4、数据治理

1)自动提取元数据信息,并统一存储;

2)对元数据进标签和分类,建立统一的数据目录;

3)建立数据血缘,梳理上下游的脉络关系,有助于数据问题定位分析、数据变更影响范围评估、数据价值评估;

4)跟踪数据时间旅行,提供不同版本的数据,便于进行数据回溯和分析;

5、数据质量

1)对于接入的数据质量管控,提供数据字段校验、数据完整性分析等功能;

2)监控数据处理任务,避免未执行完成任务生成不完备数据;

6、安全管控

1)对数据的使用权限进行监管;

2)对敏感数据进行脱敏和加密;

7、自助数据发现

提供一系列数据分析工具,便于用户对数据湖的数据进行自助数据发现,包括:

  • 联合分析;
  • 交互式大数据SQL分析;
  • 机器学习与人工智能技术实现商业智能。
  • BI报表

一旦企业有了对数据和系统的明晰定义,就可以通过该机制利用大量的企业信息。该机制的一种常见实现策略是通过构建企业级数据湖来提供统一的企业数据模型,在该机制中,数据湖负责捕获数据、处理数据、分析数据,以及为消费者系统提供数据服务。

数据湖能从以下方面帮助到企业:

  • ■ 实现数据治理(data governance)与数据世系。
  • ■ 通过应用机器学习与人工智能技术实现商业智能。
  • ■ 预测分析,如领域特定的推荐引擎。
  • ■ 信息追踪与一致性保障。
  • ■ 根据对历史的分析生成新的数据维度。
  • ■ 有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务。
  • ■ 帮助组织或企业做出更多灵活的关于企业增长的决策。

三、数据湖与数据仓库的区别

很多时候,数据湖被认为与数据仓库是等同的。实际上数据湖与数据仓库代表着企业想达成的不同目标。在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库,毕竟两者的作用是截然不同的。

特性数据仓库数据湖
数据来自事务系统、运营数据库和业务线应用程序的关系数据来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
Schema设计在数据仓库实施之前(写入型 Schema)写入在分析时(读取型 Schema)
性价比更快查询结果会带来较高存储成本更快查询结果只需较低存储成本
数据质量可作为重要事实依据的高度监管数据任何可以或无法进行监管的数据(例如原始数据)
用户业务分析师数据科学家、数据开发人员和业务分析师(使用监管数据)
分析批处理报告、BI 和可视化机器学习、预测分析、数据发现和分析

只能处理结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。

能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。

处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。

拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。

数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。

数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。

四、数据湖的优势

  • 轻松地收集和摄入数据:企业中的所有数据源都可以送入数据湖中。因此,数据湖成为了存储在企业内部服务器或云服务器中的结构化和非结构化数据的无缝访问点。通过数据分析工具可以轻松地获得整个无孤岛的数据集合。此外,数据湖可以用多种文件格式存储多种格式的数据,比如文本、音频、视频和图像。这种灵活性简化了旧有数据存储的集成。
  • 支持实时数据源:数据湖支持对实时和高速数据流执行 ETL 功能,这有助于将来自 IoT 设备的传感器数据与其他数据源一起融合到数据湖中。
  • 更快地准备数据:分析师和数据科学家不需要花时间直接访问多个来源,可以更轻松地搜索、查找和访问数据,这加速了数据准备和重用流程。数据湖还会跟踪和确认数据血统,这有助于确保数据值得信任,还会快速生成可用于数据驱动的决策的 BI。
  • 更好的可扩展性和敏捷性:数据湖可以利用分布式文件系统来存储数据,因此具有很高的扩展能力。开源技术的使用还降低了存储成本。数据湖的结构没那么严格,因此天生具有更高的灵活性,从而提高了敏捷性。数据科学家可以在数据湖内创建沙箱来开发和测试新的分析模型。
  • 具有人工智能的高级分析:访问原始数据,创建沙箱的能力,以及重新配置的灵活性,这些使得数据湖成为了一个快速开发和使用高级分析模型的强大平台。数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据。

五、数据湖的构建方法

如何快速搭建数据湖?搭建数据湖无非2种选择,一种是基于开源解决方案,一种是基于商业解决方案。开源解决方案的优势是没有授权成本,但有个前提,即你所在的企业得有一个能够驾驭开源技术的团队,有能力自己解决问题。因为,开源解决方案通常都比较零散,不成系统。对于初次搭建数据湖的企业而言,复杂性很高,成功搭建难度大。基于商业的解决方案则相反,对于较小或刚开始使用数据湖的公司来说,基于公有云的数据湖解决方案实现数据湖的快速构建是可行的选择。

不仅搭建和管理维护的复杂性降低,并且成本可监控。其次,基于云的数据湖解决方案技术成熟度更高。能得到更为成熟的技术环境支持,包括工具的多样性。最后,可扩展性和安全也是重要原因之一。目前,数据湖已经在公有云上得到了完美的实现和应用,例如:可以基于Amazon S3、AWS Glue等多个基本云服务快速构建出一套数据湖服务 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云数据运营的AWS中国(宁夏)区域正式上线。

AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它的价值在于,能让准备数据更容易加载数据到数据库、数据仓库和数据湖,用于数据分析。Amazon Athena则是一种交互式查询服务,使用标准的SQL,可以直接对Amazon S3上的数据做交互查询。而这两种服务都是无服务器服务,意味着不需要管理基础设施,只需要为运行的查询付费。

官方已经给出了如何使用 AWS Glue 和 Amazon S3 构建数据湖基础和如何使用Amazon Athena 分析数据的具体教程,本文就不再赘述。当然,如果你觉得这种方式还有些复杂,那么接下来的一项服务,可以重点关注。去年,AWS发布了一项名为AWS Lake Formation的新服务,进一步降低了数据湖搭建的门槛,该服务简化了数据湖的创建过程,并在几天(而不是几个月)内构建一个安全的数据湖。

不过,该服务目前还未在中国正式推出。当然,你也可以视自身情况自行选择其他供应商,本文推荐基于AWS数据湖解决方案来实现快速搭建数据湖,是因为,到目前为止,AWS数据湖/数据分析解决方案是最完整,提供服务最丰富的,也是成功案例最多的。

> > > >Q&A

Q1:请问贵公司如何压缩数据?又如何删除副本呢?

A:我们主要使用parquet +snappy压缩;另外,如果发现压缩率较低,可以通过排序来调整数据分布,降副本可以了解下EC纠删码技术。

Q2:对于批处理效率低的问题该怎么处理?

A:具体可以看什么原因导致,如果是整体效率低,可以看资源利用是否集中,如果集中,可以考虑任务分等级、错峰进行队列隔离等;如果是个别任务问题,那就要考虑逻辑和加工链路是否有问题,比如说可以全量改增量处理,逻辑参数优化;如果倾斜导致可以针对具体倾斜原因采取不同的优化方式。

Q3:请问基于Hadoop生态组件构建DW存在哪些不足?与MPP比较?

A:如果之前一直是按照传统商业套件进行建设,可能在数据不能直接update这个点上不习惯。另外大部分技术都是经历反复演进才达到稳定的,所以最好能选用成熟组件。与MPP比较,MPP横向扩充到一定规模可能会有瓶颈,而Hadoop集群可以灵活扩充节点来增加算力,比如现在国内单集群几千台、上万台的场景都有。

Q10:请问mapping是建模管理的?是否用用ERWIN或者PD工具吧?

A:以前我们是通过excel模版建模并生成mapping文档,现在只是把这个模版搬到线上,这个小工具可以连通到建表,并且发布到数据知识系统。我们没有使用ERWIN或者PD,模型之间的关系会辅助用一些思维导图软件。

Q11:为什么要基于Hive建数仓?它不支持索引、更新、事务。

A:Hive 搭建数仓当前来看处理效率、稳定性都是经过验证过的。更新可以通过insert overwrite来解决。

Q12:数据湖是什么技术?跟数仓的关系是啥?

A:跟数仓是两个独立的概念,通过直接接入源系统的原始数据(包括结构化、非结构化),利用大数据强大的计算能力,直接将数据服务于应用。主要为缩短传统数仓的中间建模与处理(ETL)过程,目前有看到一些云+数据湖的方案。

关于数据中台的深度思考与总结(干干货)_http://www.54tianzhisheng.cn/-CSDN博客

从数仓到数据中台,谈技术选型最优解

今日头条

<p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><strong>课程总体架构请观看89讲</strong>。<br />数据库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。<br />数据库的应用有:1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。2.数据化运营、精准运营。3.广告精准、智能投放等等。</p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><br />数据库是伴随着企业信息化发展起来的,在企业信息化的过程,随着信息化工具的升级和新工具的应用,数据量变的越来越数据格式越来越多,决策要求越来越苛刻,数据库技术也在不停的发展。<br />数据库有两个环节:数据库的构建数据库的应用。</p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><br />随着IT技术走向互联网、移动化,数据源变得越来越丰富,在原来业  务数据库的基础上出现了非结构化数据,比如网站log,IoT设备数据,APP埋点数据等,这些数据量比以往结构化的数据了几个量级,对ETL过程、存储都提出了更高的要求。</p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><br />互联网的在线特性也将业务需求推向了实时化 ,随时根据当前客户行为而调整策略变得越来越常见,比如促过程库存管理,运营管理等(即既有远期策略型,也有短期操作型)。同时公司业务互联网化之后导致同时服务的客户剧增,有些情况人工难以完全处理,这就需要机器 自动决策 。比如欺诈检测和用户审核。总结来看,对数据库的需求可以抽象成两方面: 实时产生结果、处理和保存量异构数据。</p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><br />本课程基于真实热门的互联网电商业务场景为案例讲解,结合分层理论和实战对数仓设计进行详尽的讲解,基于Flink+DorisDB实现真正的实时数仓,数据来及分析,实时报表应用。具体数仓报表应用指标包括:实时屏分析、流量分析、订单分析、商品分析、商家分析等,数据涵盖全端(PC、移动、小程序)应用,互联网企业大数据技术同步,让家能够学大数据企业级实时数据库的实战经验。</p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><img src="https://img-bss.csdnimg.cn/202106150735351077.png" alt="" /></p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><img src="https://img-bss.csdnimg.cn/202106150735525497.png" alt="" /></p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><img src="https://10.idqqimg.com/qqke_course_info/ajNVdqHZLLCqADNPNpauclDQIHV9Plmpibub5ZQ2Mnb9a8RDB1Jz0Hmxmy7LONW3Yzg0XtdfrPZk/" alt="" /></p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;">本课程包含的技术: <br />开发工具为:IDEA、WebStorm <br />Flink 1.11.3<br />Hadoop 2.7.5<br />Hive 2.2.0<br />Zookeeper<br />Kafka 2.1.0、<br />Spring boot 2.0.8.RELEASE<br />Spring Cloud Finchley.SR2<br />Flume 、Hbase 2.2.6<br />DorisDB 0.13.9、Redis<br />VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav<br />等<br /><br />课程亮点: <br />1.企业接轨、真实工业界产品<br />2.DorisDB高性能分布式数据库<br />3.大数据热门技术Flink最新版<br />4.真正的实时数仓以及分层设计<br />5.海量数据屏实时报表<br />6.数据分析涵盖全端(PC、移动、小程序)应用<br />7.主流微服务后端系统<br />8.数据库实时同步解决方案<br />9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav<br />10.集成SpringCloud实现统一整合方案<br />11.互联网大数据企业热门技术栈<br />12.支持海量数据的实时数仓报表分析<br />13.支持全端实时实时数仓报表分析<br />14.全程代码实操,提供全部代码和资料 <br />15.提供答疑和提供企业技术方案咨询</p> <p style="margin: 0px; max-width: 100%; box-sizing: border-box; color: #333333; font-family: 'Hiragino Sans GB', 'Microsoft Yahei', arial, 宋体, 'Helvetica Neue', Helvetica, STHeiTi, sans-serif; font-size: 14px; background-color: #ffffff;"><strong>企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  <br />版权归作者所有,盗版将进行法律维权。</strong> </p>
评论 4 您还未登录,请先 登录 后发表或查看评论
©️2022 CSDN 皮肤主题:大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值