了解大数据知识从这里开始

本文整理了大数据存储、计算、分析相关的工具和知识点,并做好分类,方便初学者系统性的了解跟学习,本文保持持续更新和整理,如对你有帮助,还请关注或收藏后不迷路。

统计报表、多维分析MOLAP引擎

Doris

https://baijiahao.baidu.com/s?id=1633682668533717481&wfr=spider&for=pc

OLAP引擎-按时间进行统计分析的场景

Druid

https://zhuanlan.zhihu.com/p/76413280

执行其擅长的查询类型时,从数十亿条记录中过滤、汇聚只有亚秒级延迟

支持低延时的数据插入,数据实时可查,不支持行级别的数据更新

MPP引擎或数据库

Impala

MPP查询引擎

https://baijiahao.baidu.com/s?id=1713790149550411841&wfr=spider&for=pc

Clickhouse

用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库

https://zhuanlan.zhihu.com/p/370201180

StarRocks

https://www.starrocks.com/zh-CN/blog/report/p/1

Presto

是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎,⽀持跨数据源查询。

在没有Presto之前,大伙儿都是通过Hive基于PB级的数据仓库执行SQL,Hive的引擎是基于MapReduce的,它虽然能够完成定时跑批的任务,而且很稳定。但基于数据分析师交互式查询这种场景,速度是非常慢的。大伙儿都觉得非常慢。

https://blog.csdn.net/u011596455/article/details/86558218

Trino

Trino是一个并行执行、分布式的查询引擎,通过Trino可以构建高效、低延迟的分析系统。

https://zhuanlan.zhihu.com/p/397704152

MOLAP的数据分析引擎

Kylin

Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之上的SQL

查询接口及多维分析(OLAP)能力,可以再亚秒内查询巨大的Hive表

https://zhuanlan.zhihu.com/p/384866288

计算引擎与分布式大数据框架

Spark

是专为大规模数据处理而设计的快速通用的计算引擎,是一个围绕速度、易用性和复杂分析构建的大数据处理框架。

提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍

https://baijiahao.baidu.com/s?id=1717418788218668344&wfr=spider&for=pc

Flink

Apache Flink 是一个框架分布式处理引擎,用于在无边界有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

https://baijiahao.baidu.com/s?id=1716001230069329740&wfr=spider&for=pc

Storm

是一个免费开源、分布式、高容错的实时计算系统,经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

https://blog.csdn.net/u011082453/article/details/82417259

https://blog.csdn.net/psp0001060/article/details/92803443

Hadoop

有两个核心模块,分布式存储模块HDFS和分布式计算模块Mapreduce

Hive

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制

节点管理和事件监控

zookeeper

是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等

https://zhuanlan.zhihu.com/p/62526102

资源管理框架

YARN、 Mesos、Kubernetes

https://blog.csdn.net/zhaimj29/article/details/104585151

数据源

JDBC数据源,Postgrepsql、Mysql、MariaDB、Redshift、Apache Hive

AWS S3、Alluxi、Cassandra、Kafka、ES、Kudu、MongoDB

ES

https://developer.aliyun.com/article/771033

机器学习算法库

MLlib

https://www.jianshu.com/p/4839d352760a?from=singlemessage

BI工具

TableAU、PowerBI、Superset

https://www.zhihu.com/question/336096043/answer/1878306084

Zeppelin

Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。

https://blog.csdn.net/qq_34387470/article/details/117340392

开源bi工具对比

https://www.zhihu.com/question/266752015

分库分表

https://www.cnblogs.com/javastack/archive/2021/11/09/15530612.html

一致性hash

https://www.cnblogs.com/study-everyday/p/8629100.html

数仓建设

https://www.cnblogs.com/itlz/p/15044427.html

关键词

MPP

Massively Parallel Processing(大规模并行处理)

OLAP

Online Analytical Processing,在线分析处理查询。

ODBC

ODBC一般指开放数据库互连。 开放数据库连接(Open Database Connectivity,ODBC)是为解决异构数据库间的数据共享而产生的。

JDBC

JDBC一般指Java数据库连接。 Java数据库连接,(Java Database Connectivity,简称JDBC)是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。

Ad-hoc

Ad-hoc一般指Ad hoc。 Ad-Hoc(点对点)模式:ad-hoc模式就和以前的直连双绞线概念一样,是P2P的连接,所以也就无法与其它网络沟通了。一般无线终端设备像PMP、PSP、DMA等用的就是ad-hoc模式。

DDL

(data definition language)是数据定义语言:DDL比DML要多,主要的命令有CREATE、ALTER、DROP等,DDL主要是用在定义或改变表(TABLE)的结构。

DML

一般指数据操纵语言。 数据操纵语言(Data Manipulation Language, DML)是用于数据库操作,对数据库其中的对象和数据运行访问工作的编程语句。

数据仓库

将原始数据按业务规则进行结构化后存入数据仓库,优势是消费时可以直接使用,劣势是原始数据部分信息丢失;

数据湖

直接将原始数据全量存入数据湖(结构化、半结构化、非结构化等),优势是保留原始数据的全量信息便于后期挖掘,劣势是在消费时要重新进行ETL数据处理。

如文章有错误或有需优化补充的地方,欢迎直接发消息给作者@Steven(吴敏0621)进行完善 ,不甚荣幸!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值