了解大数据知识从这里开始

最新推荐文章于 2023-11-07 00:47:04 发布

欢乐编程猫

最新推荐文章于 2023-11-07 00:47:04 发布

阅读量67

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41874683/article/details/124423978

版权

本文整理了大数据存储、计算、分析相关的工具和知识点，并做好分类，方便初学者系统性的了解跟学习，本文保持持续更新和整理，如对你有帮助，还请关注或收藏后不迷路。

统计报表、多维分析MOLAP引擎

Doris

https://baijiahao.baidu.com/s?id=1633682668533717481&wfr=spider&for=pc

OLAP引擎-按时间进行统计分析的场景

Druid

https://zhuanlan.zhihu.com/p/76413280

执行其擅长的查询类型时，从数十亿条记录中过滤、汇聚只有亚秒级延迟

支持低延时的数据插入，数据实时可查，不支持行级别的数据更新

MPP引擎或数据库

Impala

MPP查询引擎

https://baijiahao.baidu.com/s?id=1713790149550411841&wfr=spider&for=pc

Clickhouse

用于在线分析处理查询（OLAP :Online Analytical Processing）MPP架构的列式存储数据库

https://zhuanlan.zhihu.com/p/370201180

StarRocks

https://www.starrocks.com/zh-CN/blog/report/p/1

Presto

是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎，⽀持跨数据源查询。

在没有Presto之前，大伙儿都是通过Hive基于PB级的数据仓库执行SQL，Hive的引擎是基于MapReduce的，它虽然能够完成定时跑批的任务，而且很稳定。但基于数据分析师交互式查询这种场景，速度是非常慢的。大伙儿都觉得非常慢。

https://blog.csdn.net/u011596455/article/details/86558218

Trino

Trino是一个并行执行、分布式的查询引擎，通过Trino可以构建高效、低延迟的分析系统。

https://zhuanlan.zhihu.com/p/397704152

MOLAP的数据分析引擎

Kylin

Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之上的SQL

查询接口及多维分析（OLAP）能力，可以再亚秒内查询巨大的Hive表

https://zhuanlan.zhihu.com/p/384866288

计算引擎与分布式大数据框架

Spark

是专为大规模数据处理而设计的快速通用的计算引擎，是一个围绕速度、易用性和复杂分析构建的大数据处理框架。

提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。

可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍

https://baijiahao.baidu.com/s?id=1717418788218668344&wfr=spider&for=pc

Flink

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

https://baijiahao.baidu.com/s?id=1716001230069329740&wfr=spider&for=pc

Storm

是一个免费开源、分布式、高容错的实时计算系统，经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

https://blog.csdn.net/u011082453/article/details/82417259

https://blog.csdn.net/psp0001060/article/details/92803443

Hadoop

有两个核心模块，分布式存储模块HDFS和分布式计算模块Mapreduce

Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制

节点管理和事件监控

zookeeper

是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等

https://zhuanlan.zhihu.com/p/62526102

资源管理框架

YARN、 Mesos、Kubernetes

https://blog.csdn.net/zhaimj29/article/details/104585151

数据源

JDBC数据源，Postgrepsql、Mysql、MariaDB、Redshift、Apache Hive

AWS S3、Alluxi、Cassandra、Kafka、ES、Kudu、MongoDB

ES

https://developer.aliyun.com/article/771033

机器学习算法库

MLlib

https://www.jianshu.com/p/4839d352760a?from=singlemessage

BI工具

TableAU、PowerBI、Superset

https://www.zhihu.com/question/336096043/answer/1878306084

Zeppelin

Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。

https://blog.csdn.net/qq_34387470/article/details/117340392

开源bi工具对比

https://www.zhihu.com/question/266752015

分库分表

https://www.cnblogs.com/javastack/archive/2021/11/09/15530612.html

一致性hash

https://www.cnblogs.com/study-everyday/p/8629100.html

数仓建设

https://www.cnblogs.com/itlz/p/15044427.html

关键词

MPP

Massively Parallel Processing（大规模并行处理）

OLAP

Online Analytical Processing，在线分析处理查询。

ODBC

ODBC一般指开放数据库互连。开放数据库连接（Open Database Connectivity，ODBC）是为解决异构数据库间的数据共享而产生的。

JDBC

JDBC一般指Java数据库连接。 Java数据库连接，（Java Database Connectivity，简称JDBC）是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口，提供了诸如查询和更新数据库中数据的方法。

Ad-hoc

Ad-hoc一般指Ad hoc。 Ad-Hoc（点对点）模式：ad-hoc模式就和以前的直连双绞线概念一样，是P2P的连接，所以也就无法与其它网络沟通了。一般无线终端设备像PMP、PSP、DMA等用的就是ad-hoc模式。

DDL

（data definition language）是数据定义语言：DDL比DML要多，主要的命令有CREATE、ALTER、DROP等，DDL主要是用在定义或改变表（TABLE）的结构。

DML

一般指数据操纵语言。数据操纵语言（Data Manipulation Language, DML）是用于数据库操作，对数据库其中的对象和数据运行访问工作的编程语句。

数据仓库

将原始数据按业务规则进行结构化后存入数据仓库,优势是消费时可以直接使用,劣势是原始数据部分信息丢失;

数据湖

直接将原始数据全量存入数据湖(结构化、半结构化、非结构化等),优势是保留原始数据的全量信息便于后期挖掘,劣势是在消费时要重新进行ETL数据处理。

如文章有错误或有需优化补充的地方，欢迎直接发消息给作者@Steven(吴敏0621)进行完善，不甚荣幸！

欢乐编程猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
了解大数据知识从这里开始

本文整理了大数据存储、计算、分析相关的工具和知识点，并做好分类，方便初学者系统性的了解跟学习，本文保持持续更新和整理，如对你有帮助，还请关注或收藏后不迷路。统计报表、多维分析MOLAP引擎Dorishttps://baijiahao.baidu.com/s?id=1633682668533717481&wfr=spider&for=pcOLAP引擎-按时间进行统计分析的场景Druidhttps://zhuanlan.zhihu.com/p/76413280
复制链接

扫一扫

欢乐编程猫 CSDN认证博客专家 CSDN认证企业博客

码龄6年

5: 原创

104万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

163: 积分

1: 粉丝

2: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

分类专栏

web 1篇
js 2篇
前端 2篇

最新评论

webpack 打包react组件
CSDN-Ada助手: 恭喜您发布了新的博客《webpack 打包react组件》，内容相当有价值！希望您能继续保持创作的热情和努力，为大家带来更多优质的内容。或许下一步可以考虑分享一些关于React组件性能优化或者实际项目中的应用经验，这样会更加丰富您的创作内容。期待您的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。