初心の GP
路虽远行则必至
事虽难作则必成
展开
-
Hadoop生态之YARN
YARN(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于运行在操作系统之上的应用程序。ResourceManager负责协调和管理整个集群资源,相应用户提交的不同类型应用程序的解析、调度、监控等工作。有两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Master)。NodeManager是YARN集群中真正资源的提供者,是真原创 2022-01-12 14:01:20 · 845 阅读 · 0 评论 -
Hadoop生态之MapReduce
MapReduce是分布式运算程序的编程框架,其核心功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群框架上 Tips:为什么用MapReduce? 海量数据在单机上处理会因为硬件资源限制而无法胜任,如果将单机版程序扩展到集群来分布式运行,则将极大的增加程序的复杂性和开发难度。引入MapReduce框架后,开发人员可以将绝大部分工作集中到业务逻辑的开发上,将分布式计算中的复杂性交给框架...原创 2022-01-07 12:00:00 · 181 阅读 · 0 评论 -
Zookeeper介绍
概述特点/设计目的原创 2021-12-23 16:43:41 · 758 阅读 · 0 评论 -
Hadoop生态之HDFS
一、设计思想 1.分散存储:大文件被切割成小文件,使用大文件被切割成小文件,使用分而治之的思想对同一个文件进行管理的思想对同一个文件进行管理。 a.Hadoop1.x默认块大小64M b.Hadoop2.x默认块大小128M c.Hadoop3.x默认块大小128M Tips:切分块大小不是越大越好,也不是越小越好,根据实际情况划分最好 ...原创 2021-12-15 15:19:22 · 1302 阅读 · 0 评论 -
Haddop安装部署
一、前提条件 1、创建hadoop用户,并设置root权限 2、集群模式下需要提前设置ssh免密登录 3、java安装和环境变量配置 4、准备hadoop安装包(使用2.7.7版本),下载链接如下Index of /dist/hadoop/common/hadoop-2.7.7https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/二、伪集群安装 1、上...原创 2021-12-07 15:32:55 · 1873 阅读 · 0 评论 -
Hadoop介绍
Apache Hadoop项目是一个提供高可靠,可扩展(横向)的分布式计算的开源软件平台。允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。Hadoop本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。产生背景1.Hadoop最早起源于Nutch。Nutch的目的是构建一个大型的全网搜索引擎(网页抓取、...原创 2021-12-03 12:00:00 · 137 阅读 · 0 评论 -
大数据GP
大数据学习成长之路原创 2021-11-29 13:52:50 · 1978 阅读 · 0 评论