BI数据分析&OLAP
文章平均质量分 86
OLAP 泛指数据查询分析,
像报表、即席查询、多维分析都属于 OLAP 的范畴
四月天03
这个作者很懒,什么都没留下…
展开
-
批处理-交互式分析一体化Trino深度测评
2020年12月27日,Presto社区将开源项目PrestoSQL的名字更名为TrinoDB(本文简称Trino)。Trino是一款开源的高性能、分布式SQL查询引擎,专门用于对各种异构数据源运行交互式分析查询,支持从GB到PB的数据量范围。Trino专门为交互式分析而设计,可以对来自不同数据源的数据(包括:Hive、AWS S3、Alluxio、MySQL、Kafka、ES等等)进行合并查询,并提供良好的自定义连接器编程扩展框架。适用于期望响应时间从亚秒到数分钟不等的分析师场景。原创 2023-07-20 17:29:49 · 918 阅读 · 0 评论 -
Doris 整合 Iceberg+Flink CDC 构建实时湖仓一体的联邦查询分析架构
这里Doris On Iceberg我们只演示了Iceberg单表的查询,你还可以联合Doris的表,或者其他的ODBC外表,Hive外表,ES外表等进行联合查询分析,通过Doris对外提供统一的查询分析入口。自此我们完整从搭建Hadoop,hive、flink 、Mysql、Doris 及Doris On Iceberg的使用全部介绍完了,Doris朝着数据仓库和数据融合的架构演进,支持湖仓一体的联邦查询,给我们的开发带来更多的便利,更高效的开发,省去了很多数据同步的繁琐工作,快快来体验吧。原创 2022-04-17 22:05:52 · 3624 阅读 · 0 评论 -
指标的统一管理和分析平台
在企业普遍开展数字化转型、以数据驱动决策的当下,如何构建企业的统一数据视图,深度挖掘数据价值,支撑各级业务团队进行高效的经营管理,已成为企业面临的一个现实挑战。过去基于报表来响应业务用数需求的模式变得越来越低效。由此产生各部门间的数据定义和实施方式差异,导致企业数据集市的碎片化,不利于企业整体的数据治理。伴随而来的一系列问题,例如报表体系混乱,报表口径不一致和不透明,报表大量重复开发,缺乏数据价值管理体系等,严重阻碍了企业数字化经营的战略落地。应用场景近几年,不...原创 2022-04-03 15:20:38 · 1496 阅读 · 0 评论 -
OLAP(七):StarRocks
StarRocks 是一款极速统一的Lakehouse产品,具备水平在线扩缩容,金融级高可用,兼容 MySQL 5.7 协议和 MySQL 生态,提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为用户提供统一的解决方案,适用于对性能,实时性,并发能力和灵活性有较高要求的各类应用场景。首先我们先来看一下 StarRocks 是一款什么样的产品,他的产品定位是什么样的,他处于大数据生态什么位置上。原创 2021-08-26 22:22:53 · 1703 阅读 · 0 评论 -
BI工具对比:Tableau和FineBI
BI对比评测:Tableau和FineBI1、部署使用Tableau 为C/S架构,需要在用户终端安装desktop进行分析的设计,在服务器端安装server,将模块数据与分析发布在server上,使用reader查看客户端生成的分析,可以在web断和移动端查看在server上发布的分析。体量较大,布署稍复杂,使用时需要客户端配合。 FineBI为B/S构架的web端工程。将需要分析的数据抽出保存在索引中,使用不同分析组件进行不同dashboard的设计,体量小,布署简单方便,极速,可直接使用,也原创 2021-07-27 22:53:25 · 3077 阅读 · 0 评论 -
八、电商数仓项目——可视化报表Superset
第 第 1 章 章 Superset 入门1.1 Superset 概述Apache Superset 是一个开源的、现代的、轻量级 BI 分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset 应用场景由于 Superset 能够对接常用的大数据分析工具,如 Hive、Kylin、Druid 等,且支持自定义仪表盘,故可作为数仓的可视化工具。第 2 章 章 Superset 安装第 3 章 章 S...原创 2021-12-11 18:17:37 · 3407 阅读 · 0 评论 -
Kudu对比测试,Hbase和ClickHouse
前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。 Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。 Apache Kudu是Cloudera Manager公司16年发布的新型分布式存储系统,结合CDH和Impala使用......原创 2021-08-10 18:28:33 · 1755 阅读 · 0 评论 -
OLAP(六):Greenplum 数据库
Greenplum数据库是业界最快最高性价比的关系型分布式数据库,它在开源的PostgreSQL的基础上采用MPP架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。GreenPlum作为大数据融合存储平台中众多数据库之一,与其他数据库系统和文件系统一起,为OceanMind提供完整的OceanStorage大数据融合存储解决方案。GreenPlum的特点:1) 完善的标准:GreenPlum数据库支持ANSI SQL 2008原创 2022-04-02 19:29:00 · 14424 阅读 · 0 评论 -
OLAP(五):Druid
1. 特性Druid 官网:https://druid.apache.org,Github:apache/incubator-druid根据官方文档,Druid 的核心特性主要包括:列式存储。列式存储的优势在于查询的时候可以只返回指定的列的数据,其次同一列数据往往具有很多共性,这带来另一个好处就是存储的时候压缩效果比较好。 可扩展的分布式架构。 并行计算。 数据摄入支持实时和批量。这里的实时的意思是输入摄入即可查。如果大家看过我之前关于实时计算的文章,应该猜到了这就是典型的 lambda.原创 2021-10-15 18:03:23 · 680 阅读 · 0 评论 -
OLAP(四):ClickHouse
引言ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内各个大厂纷纷跟进大规模使用:今日头条内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。 腾讯内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。 携程内部从18年7月份开始接入试用,目前80%的业务都跑在ClickHouse上。每天数据增量十多亿,近百万次查询请求。 快原创 2021-08-25 23:19:37 · 2901 阅读 · 0 评论 -
OLAP(二):Presto 、和impala性能测试
Presto 是一个开源的分布式 SQL 查询引擎,数据量支持 GB 到 PB 字节,主要用来处理秒级查询的场景。注意:虽然 Presto 可以解析 SQL,但它不是一个标准的数据库。不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)。原创 2021-04-27 22:45:34 · 2647 阅读 · 0 评论 -
OLAP(三):Doris
1.编写测试程序1,无限循环通过Spark restful API 提交任务到spark集群运行,每个任务申请worker数1个,cpu:1核,内存:1g,driver端 cpu:核,内存1g,程序只提交spark任务不进行任务读取文件和处理分析操作,申请到资源就立马释放。4.编写测试程序4,提交2个任务,第一个任务先提交并申请spark集群50%资源,然后提交第二个任务,第二个任务也要获取spark集群50%资源。4.若提交一个任务,spark集群只能满足其一部分申请,这个任务该如何进行。......原创 2022-08-27 23:40:08 · 2068 阅读 · 0 评论 -
Impala优化,并发性能问题,压测
在进行impala性能测试的过程中,从测试结果发现impala的并发性能非常差。1.1 环境信息测试的环境配置如下:服务器内存:250G;CPU : 2个CPU,每cpu 6个物理核,逻辑核数24;带宽:万兆网口节点个数:3数据:TPC-DS生成的100G数据集,把数据导入parquet格式的hive表中。..........................................原创 2022-08-27 17:13:05 · 5116 阅读 · 0 评论 -
OLAP(三):Impala介绍 、 (和hive/spark对比)、COMPUTE STATS
一、Impala概述Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。二、为什么选择Impala?Impala的优点:Impala数据查询效率比Hive快几倍甚至数十倍Impala通过使用标准组件(如HDFS,HBase.................原创 2021-02-08 14:59:11 · 10173 阅读 · 0 评论 -
数仓OLAP(一)--即席查询 Kylin
1 Kylin 定义Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。Kylin 架构1)REST ServerREST Server 是一套面向应用程序开发的入口点,旨在实现针对 Kylin 平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发 cube 构建任...原创 2021-07-17 19:25:51 · 1419 阅读 · 4 评论 -
OLAP(总):Impala/Druid/Presto/Kylin/Clickhouse/Greenplum等对比
OLAP(On-LineAnalytical Processing)联机分析处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。应用在数据仓库,使用对象是决策者。OLAP系统强调的是数据分析,响应速度要求没那么高。目前市面上主流的开源OLAP引擎包含不限于:Hive、Presto、Kylin、Impala、Sparksql、Druid、Greenplum等OLTP(On-Line Transact..原创 2020-10-13 16:11:26 · 24449 阅读 · 5 评论