Doris 入门:基础知识(一)

  Apache Doris 是一个高性能、简单易用、支持实时的 MPP 架构分析型数据库

一、MPP 架构

  • 介绍
    • 全称 Massively Parallel Processor,翻译过来就是大规模并行处理
    • 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上
    • 每台数据节点通过专用网络或者商业网络互相连接,彼此协同计算,作为整体提供数据库服务
    • 非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势
    • MPP 是将任务并行的分散到多个服务器和节点上,在每个几点计算完成后,将各自部分的结果汇总在一起得到最终的结果
  • 简单来说
    • MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(和 Hadoop 相似),仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析

二、OLTP、OLAP

  • 联机事务处理 OLTP On-Line Transaction Processing
    • 操作型处理,主要目标是做数据处理,针对具体业务在数据库联机的日常操作,通常对少数记录进行查询和修改
    • 传统的关系型数据库系统(RDBMS)作为数据管理的主要手段,主要用于操行型处理
  • 联机分析处理 OLAP On-Line Analytical Processing
    • 分析型处理,主要目标是做数据分析,针对某些主题的历史数据进行复杂的多维分析,支持管理决策
    • 数据仓库是 OLAP 系统的一个典型示例,主要用于数据分析
    • 引擎分类
      • M OLAP,基于多维数组的存储模型,特点是对数据进行预计算,空间换效率,明细和聚合数据都保存在 cube 中
      • R OLAP,完全基于关系模型进行存储数据,不需要预计算,按需即时查询,明细和汇总数据都保存在关系型数据库事实表中
      • H OLAP,混合模型,细节数据以 R OLAP 存放,聚合数据以 M OLAP 存放,这种方式相对灵活,且更加高效

三、Doris 概述

  • Apache Doris 是一个现代化的基于 MPP 大规模并行处理 技术的分析型数据库产品,可以满足多种数据分析需求
    • 例如:固定历史报表、实时数据分析、交互式数据分析和探索式数据分析等
  • 核心特性
    • 列式存储
    • 基于 MPP 架构的分析型数据库
    • 性能卓越,PB 级别数据毫秒/秒级响应
    • 支持标准 SQL 语言,兼容 MySQL 协议
    • 高效的聚合表技术
    • 新型预聚合技术 Rollup
    • 高性能、高可靠、高可用
    • 极简运维,弹性伸缩

四、整体架构

  • Doris = Google Mesa + Apache Impala + ORC 列式存储
  • Doris 整合了 Google Mesa 数据模型,Apache Impala MPP Query Engine 和 Apache ORCFile 存储格式、编码和压缩技术
  • 极简架构
    • MySQL Tools(MySQL Networking) -> FE (Follower,Java) + FE (Leader,Java) -> BE (C++) + BE(C++)
      • FE Frontend 即 Doris 的前端节点,以 Java 语言为主,主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。
      • BE Backend 即 Doris 的后端节点,以 C++ 语言为主,主要负责数据存储、查询计划的执行

五、总结

  • Doris 使用 MPP 引擎驱动的 ROLAP 模式,可以简化模型设计,减少预计算的代价,并通过强大的实时计算能力,可以支撑良好的实时交互体验
  • Doris 是一个 ROLAP 引擎,可以满足 灵活多维分析、明细 + 聚合、主键更新
  • 使用场景
    • 一般用于数据处理后半段,存储处理完的数据,给前端提供实时查询
课程总体架构请观看89讲。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库的应用有:1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。2.数据化运营、精准运营。3.广告精准、智能投放等等。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库有两个环节:数据仓库的构建与数据仓库的应用。随着IT技术走向互联网、移动化,数据源变得越来越丰富,在原来业  务数据库的基础上出现了非结构化数据,比如网站log,IoT设备数据,APP埋点数据等,这些数据量比以往结构化的数据大了几个量级,对ETL过程、存储都提出了更高的要求。互联网的在线特性也将业务需求推向了实时化 ,随时根据当前客户行为而调整策略变得越来越常见,比如大促过程中库存管理,运营管理等(即既有中远期策略型,也有短期操作型)。同时公司业务互联网化之后导致同时服务的客户剧增,有些情况人工难以完全处理,这就需要机器 自动决策 。比如欺诈检测和用户审核。总结来看,对数据仓库的需求可以抽象成两方面: 实时产生结果、处理和保存大量异构数据。本课程基于真实热门的互联网电商业务场景为案例讲解,结合分层理论和实战对数仓设计进行详尽的讲解,基于Flink+DorisDB实现真正的实时数仓,数据来及分析,实时报表应用。具体数仓报表应用指标包括:实时大屏分析、流量分析、订单分析、商品分析、商家分析等,数据涵盖全端(PC、移动、小程序)应用,与互联网企业大数据技术同步,让大家能够学到大数据企业级实时数据仓库的实战经验。本课程包含的技术: 开发工具为:IDEA、WebStorm Flink 1.11.3Hadoop 2.7.5Hive 2.2.0ZookeeperKafka 2.1.0、Spring boot 2.0.8.RELEASESpring Cloud Finchley.SR2Flume 、Hbase 2.2.6DorisDB 0.13.9、RedisVUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav等课程亮点: 1.与企业接轨、真实工业界产品2.DorisDB高性能分布式数据库3.大数据热门技术Flink最新版4.真正的实时数仓以及分层设计5.海量数据大屏实时报表6.数据分析涵盖全端(PC、移动、小程序)应用7.主流微服务后端系统8.数据库实时同步解决方案9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav10.集成SpringCloud实现统一整合方案11.互联网大数据企业热门技术栈12.支持海量数据的实时数仓报表分析13.支持全端实时实时数仓报表分析14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值