自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hadoop三大组件之一:MapReduce

MapReduce是Doug根据的Google的来仿照实现的MapReduce将整个计算过程拆分为了两个大阶段:Map(映射)阶段和Reduce(规约)阶段。

2024-05-06 19:35:17 991 1

原创 HDFS简介及NameNode,DataNode

HDFS典型的主从(Master/Slave,简称为M/S)结构。主进程是NameNode,从进程是DataNodeHDFS会对上传的每一个文件进行切块处理,切出来的每一个数据块称之为是一个BlockHDFS会对存储的每一个Block进行备份,称之为副本(replication/replicas)。默认情况下,副本数量为3HDFS仿照Linux设计了一套虚拟文件系统,根路径是NameNode是HDFS的主进程,也是核心进程。

2024-04-29 17:08:37 923

原创 大数据概述及6V

大数据从面世以来,不同的机构、组织都试图对大数据做出定义,但是到目前为止,大数据并没有产生准确的定义,达成了共识:大数据是围绕海量数据来进行处理分析,从而挖掘数据的价值虽然大数据没有准确定义,但是总结出来大数据的几个特征对于整个大数据产业而言,大概可以划分为数据采集(日志采集、业务数据采集、爬虫等)、数据存储、数据分析(离线、实时)、数据挖掘、数据可视化。

2024-04-29 17:02:45 465

原创 Hadoop,三个节点,安装详解(二)

HDFS(Hadoop Distributed File System)是Hadoop提供的一套用于进行分布式存储的文件系统HDFS是仿照了Google的GFS来实现的HDFS典型的主从(Master/Slave,简称为M/S)结构。主进程是NameNode,从进程是DataNodeHDFS会对上传的每一个文件进行切块处理,切出来的每一个数据块称之为是一个BlockHDFS会对存储的每一个Block进行备份,称之为副本(replication/replicas)。默认情况下,副本数量为3。

2024-04-28 16:56:15 657 3

原创 Hadoop,三个节点,安装详解

Hadoop原本是由Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的、可扩展/可伸缩的、分布式架构Hadoop之父:Doug.Cutting(道格.卡汀/卡丁)由于Hadoop的版本混乱,所以在选择Hadoop版本的时候需要注意Hadoop的兼容性问题Hadoop提供了简单的编程模型在集群中处理大量的数据集Hadoop能够从一台主机扩展到上千台主机,每一台主机都能够进行本地存储和计算Hadoop本身提供了探测和处理异常的机制。

2024-04-26 17:27:56 1236 1

原创 Zookeeper,三个节点,详解(四)

所谓崩溃恢复,指的是当Zookeeper集群中leader产生宕机或者丢失的时候,整个集群不会停止服务而是会选举出一个新的leader继续对外提供服务崩溃恢复,可以很好的避免集群中出现单点故障(因为一个节点故障而导致整个集群崩溃),实现集群的高可用在Zookeeper集群中,当leader产生丢失的时候,Zookeeper集群会重新选举出一个新的leader,同时会给新leader产生一个编号(Epochid)。新leader产生编号之后,会将自己的Epochid发送给每一个follower。

2024-04-25 16:48:58 844 1

原创 Zookeeper,三个节点,详解(三)

对于分布式框架而言,基本上都会遵循CAP三大理论CAP(CAP理论是从客户端角度出发的!!!C(Consistency):一致性。在一段时间内,访问这个集群获取到的数据是相同的。注意,此时,在一个时间段内,不要求每一台服务器的数据都一样,只要保证客户端获取到的数据一样就行A(Availability):可用性。当客户端对集群中的节点发起请求的时候,节点能够在合理的时间内(一般理解为立刻)进行响应 - 时效性。注意,此处的可用性和服务器的高可用不是一回事儿!!!

2024-04-23 19:49:57 905

原创 Zookeeper,三个节点,详解(二)

当Zookeeper集群启动的时候,此时所有的节点(在集群中,节点指的就是服务器)都会进入选举状态,并且此时所有的节点都会推荐自己成为leader当一个节点收到别人的选举信息之后,就会进行比较。经过多轮比较之后,最后胜出的节点会成为leader。

2024-04-20 14:28:31 500

原创 Zookeeper,三个节点,详解(一)

Zookeeper本身是Apache提供的一套开源的用于进行分布式管理和协调的机制/框架。Zookeeper本身提供了中心化服务,包含统一配置、统一命名、分布式锁服务、分布式组服务,更多的时候,Zookeeper充当了一个注册中心来使用Zookeeper是Yahoo!仿照了Google的开发的后来贡献给了Apache的一套框架在大数据中,几乎所有的框架,它的安装都提供了三种模式单机模式:在一台服务器上安装,往往能够启动这个框架的部分服务。

2024-04-18 19:13:22 1004 1

原创 datagrip链接clickhouse教程

添加ClickHouse驱动:最好不用自己下载的驱动,会出现一些错误以及连接失败,用在线下载的。

2024-04-17 18:48:45 401 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除