大数据
文章平均质量分 82
林木森^~^
这个作者很懒,什么都没留下…
展开
-
【HBase】HBase高性能架构:如何保证大规模数据的高可用性
Master 随后将失败的 Region Server 上的数据 Region 分配给其他的 Region Server,从而恢复服务。这些日志文件存储在 HDFS 上,确保了即使在 Region Server 崩溃的情况下,数据也不会丢失,因为可以从 WAL 中重新构造数据。HBase 的高可用性是通过一系列设计和配置策略来实现的,目的是确保即使在面临硬件故障、网络问题或是软件错误时,系统仍能继续提供服务。虽然这不直接影响到系统的实时可用性,但通过定期创建数据的快照和备份可以提高数据的总体安全性。原创 2024-04-14 19:35:34 · 711 阅读 · 0 评论 -
【HBase】HBase深度解析:特性、实战应用及核心流程全景
HBase 是一个开源的、非关系型的分布式数据库(NoSQL),它建立在 Hadoop 文件系统(HDFS)之上。HBase 旨在存储海量的稀疏数据集,这种数据集通常是由用户界面事件、消息系统、传感器设备等产生的时间序列数据。它是 Google BigTable 的开源实现,由 Apache 软件基金会管理。HBase 能够提供实时读写访问大规模数据集的能力,并能够确保数据的可伸缩性和弹性。原创 2024-04-14 19:32:17 · 1130 阅读 · 0 评论 -
深入理解Doris 的高性能和高可用原理
Doris 和 ClickHouse 都是现代的列式数据库系统,设计用于高速数据分析和实时查询处理。虽然它们在多个方面具有相似的功能,但也存在一些关键的区别,使它们在特定应用场景下的表现各有优势。Doris 的高可用性是通过一系列的设计和机制来实现的,确保即使在硬件故障或网络问题等异常情况下,系统仍能维持正常运行并保证数据的一致性和可访问性。Doris 的高性能特性主要源于其设计原理和实现方式,这些设计使其非常适合处理大规模数据仓库和实时分析任务。原创 2024-04-12 21:48:30 · 1131 阅读 · 0 评论 -
Doris 深度解析:打造高效、可扩展的数据分析平台
Doris” 是一个用于商业智能(BI)的开源MPP(大规模并行处理)数据库系统,原名 Apache Doris,用于构建数据仓库和进行数据分析。它是一个高性能、易扩展的分析数据库解决方案,支持实时查询和多维数据分析。原创 2024-04-12 21:46:04 · 1287 阅读 · 0 评论 -
深入理解ClickHouse 的高性能与高可用原理
列式存储方式使得 ClickHouse 特别适合执行分析查询,因为它可以仅读取查询所需的列,从而大大减少数据的读取量。ClickHouse 可以在多个节点上并行处理查询,这不仅提高了查询的处理速度,也增加了系统的容错能力。这些设计和优化措施结合起来,使得 ClickHouse 特别适合处理大规模数据集上的复杂分析查询,提供了出色的性能和高效的数据处理能力。在一个集群中,数据可以被复制到多个节点,确保即使在某个节点失败的情况下,数据也不会丢失,并且服务仍然可用。ClickHouse 的。原创 2024-04-11 22:24:33 · 1528 阅读 · 0 评论 -
ClickHouse入门篇:一文带你学习ClickHouse
ClickHouse 是一个用于联机分析处理(OLAP)的列式数据库管理系统(DBMS)。由于其独特的数据存储和处理架构,ClickHouse 能够提供高速数据插入和实时查询性能。原创 2024-04-11 22:17:42 · 830 阅读 · 0 评论 -
【大数据篇】Flink全面入门指南
Apache Flink 是一个开源的流处理框架,用于在高吞吐量和低延迟的条件下处理无界和有界数据流。Flink 设计用于运行在所有常见的集群环境,如 Hadoop YARN、Apache Mesos 和 Kubernetes 上,并以“流式计算”为核心思想,同时也支持批处理和流批一体化的数据处理模式。原创 2024-04-10 22:25:46 · 742 阅读 · 0 评论 -
【大数据篇】Spark转换算子(Transformations)和行动算子(Actions)详解
Apache Spark 提供了大量的算子(操作),这些算子大致可以分为两类:转换算子(Transformations)和行动算子(Actions)。转换算子用于创建一个新的RDD,而行动算子则对RDD进行操作并产生结果。原创 2024-04-10 22:24:15 · 1563 阅读 · 0 评论 -
【大数据篇】Spark运行时架构详解
Apache Spark的运行时架构是设计来高效处理大规模数据的。它包含多个组件,每个组件各司其职,共同协作完成数据处理任务。原创 2024-04-09 14:00:00 · 454 阅读 · 0 评论 -
【大数据篇】一文带你入门Spark
Apache Spark是一个开源的分布式计算系统,被广泛应用于大数据处理和分析领域。由于其出色的性能,易用性和广泛的功能集,Spark已经成为了大数据技术生态系统中的一个关键组成部分。下面我们详细介绍Spark的特点、核心功能、应用场景以及核心组件。原创 2024-04-09 14:30:00 · 654 阅读 · 0 评论 -
【大数据篇】深入理解Hadoop原理
Hadoop是一个开源框架,由Apache软件基金会维护,用于在大规模数据集上进行分布式存储和分布式处理。它设计用来从单台服务器扩展到数千台机器,每台机器提供局部计算和存储。而且,Hadoop通过检测和处理应用层的故障来提供高可用性。原创 2024-04-08 10:00:00 · 849 阅读 · 0 评论 -
全网最详细的全分布式Hadoop环境搭建,亲测有效,搭不起来来打我
准备三台服务器,此处使用aliyun ECS 2核4G 三台修改hostname,此处改为hadoop01,hadoop02,hadoop03,修改之后需要重新启动生效修改etc文件下载Hadoop和JDK解压增加jdk和Hadoop环境变量配置免密登录,并将自己的授权文件分发给其他两台Hadoop配置修改文件夹中的配置文件hdfs-site.xmlslavesyarn-site.xmlmapred-site.xml可能找不到 JAVA_HOME 修改hadoop-e原创 2022-06-03 22:57:13 · 716 阅读 · 0 评论 -
Flink 算子简介
Source OperatorFlink的API层级 为流式/批式处理应用程序的开发提供了不同级别的抽象第一层是最底层的抽象为有状态实时流处理,抽象实现是 Process Function,用于底层处理第二层抽象是 Core APIs,许多应用程序不需要使用到上述最底层抽象的 API,而是使用 Core APIs 进行开发例如各种形式的用户自定义转换(transformations)、联接(joins)、聚合(aggregations)、窗口(windows)和状态(state)操作等,此原创 2021-08-08 16:28:29 · 1860 阅读 · 0 评论 -
Flink简介以及运行架构
是什么Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算概念:数据流任何类型的数据都可以形成一种事件流,信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。什么是有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理什么是无界流有定义流的开始,但没有定义流的结束。它们会无休止地产原创 2021-08-08 15:15:04 · 353 阅读 · 0 评论 -
大数据篇(六) Spark Stream简介
是什么Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语 如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。数据结构DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收 到的数据都作为 RDD 存在,而 DStream 是由这些 R原创 2021-07-25 21:32:33 · 2092 阅读 · 1 评论 -
大数据篇(五) Spark SQL简介
是什么Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。发展SparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快 速上手的工具。Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程 中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL-on-Hadoop 的效率,大量的 SQL-on-Hadoop原创 2021-07-25 21:01:37 · 338 阅读 · 0 评论 -
大数据篇(四) Spark 数据结构
Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。RDD : 弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量RDD是什么RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。弹性⚫ 存储的弹性:内存与磁盘的自动切换;⚫ 容错的弹性:数据丢转载 2021-07-25 18:12:20 · 574 阅读 · 0 评论 -
大数据篇(三) Spark运行架构
运行架构Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。核心组件DriverDriver 在 Spark 作业执行时主要负责:➢ 将用户程序转化为作业(job)➢ 在 Executor 之间调度任务(task)➢ 跟踪 Executor 的执行情况➢ 通过 UI 展示查询运行情况ExecutorSpark Executor 是集群中工作节点(Worker)中的一个 JVM 进程,负责在 Spark 作业 中运行具体任务(Task),任务彼转载 2021-07-25 16:41:54 · 454 阅读 · 0 评论 -
大数据篇(二) Spark运行环境
运行模式Local 模式所谓的 Local 模式,就是不需 要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等。Standalone 模式local 本地模式只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,spark提供了只使用 Spark 自身节点运行的集群模式,也就是我们所谓的 独立部署(Standalone)模式。Spark 的 Standalone 模式体现了经典的 master-slave 模式。Yarn 模式独立部署(Sta原创 2021-07-25 14:38:02 · 207 阅读 · 0 评论 -
大数据篇(一) Spark简介以及和hadoop的对比
1.是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2.和Hadoop的关系HadoopHadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架作为 Hadoop 分布式文件系统,HDFS 处于 Hadoop 生态圈的最下层,存储着所有 的 数 据 , 支 持 着 Hadoop 的 所 有 服 务 。 它 的 理 论 基 础 源 于 Google 的 TheGoogleFileSystem 这篇论文,它是 GFS转载 2021-07-25 14:22:57 · 928 阅读 · 0 评论 -
大数据技术栈一览
1. 数据采集和传输层FlumeFlume一个分布式、可靠的、高可用的用于数据采集、聚合和传输的系统。常用于日志采集系统中,支持定制各类数据发送方用于收集数据、通过自定义拦截器对数据进行简单的预处理并传输到各种数据接收方如HDFS、HBase、Kafka中。之前由Cloudera开发,后纳入ApacheLogstashELK工作栈的一员,也常用于数据采集,是开源的服务器端数据处理管道SqoopSqoop主要通过一组命令进行数据导入导出的工具,底层引擎依赖于MapReduce,主要用于Hadoop原创 2020-05-21 21:20:48 · 1269 阅读 · 0 评论