Hadoop
文章平均质量分 94
Hadoop是重要的分布式系统基础框架,目前由Apache基金会管理,该框架包括HDFS(Hadoop Distributed File System)和MR(MapReduce)两部分,分别用于分布式存储和分布式计算。
Bessenn
这个作者很懒,什么都没留下…
展开
-
Hadoop笔记——MapReduce分布式计算框架详解
MapReduce是一个分布式运算程序的编程框架。这个框架提供的是一套对HDFS里面文件进行分析的编程思路,即Map和Reduce两步。通过MapReduce提供的接口,我们可以方便地编写实现一个分布式计算任务,MapReduce自带的组件会将我们的代码组装成一个分布式计算程序提交给Yarn进行处理。优点:易于编程、良好的扩展性,增加机器就能扩展计算能力、高容错性、适合海量数据的离线计算和批处理。缺点:不擅长实时计算;不擅长流式计算,即不适合处理动态数据;不擅长GA原创 2020-09-01 15:19:45 · 1127 阅读 · 0 评论 -
报错ERROR[org.apache.hadoop.util.Shell]Failed to locate the winutils binary in the hadoop binary pat
ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary pat原创 2020-08-20 09:55:46 · 3387 阅读 · 0 评论 -
Hadoop笔记——HDFS运维详解
HDFS是分布式文件系统中的一种,通过目录树定位文件。1. 适用场景:一次写入、多次读出、不支持修改、适用于数据分析。2. 优点:高容错性、存储数据规模大、可使用廉价机器。3. 缺点:不适合低延时数据访问、不适合大量小文件的存储、不支持并发写入、仅支持数据追加,不支持随机修改本文介绍了HDFS的组成,HDFS的Shell命令,客户端操作,数据流读写流程,SecondaryNameNode工作机制,DataNode工作机制,HDFS集群安全模式和HDFS的HA高可用原创 2020-08-05 09:14:59 · 1075 阅读 · 0 评论 -
Hadoop笔记——集群时间同步
为了实现整个集群的时间同步,需要选定其中一台主机作为时间服务器,其他主机定时与该主机同步时间。负责同步时间的软件为ntp(网络时间协议),服务名为ntpd原创 2020-06-07 10:26:07 · 310 阅读 · 0 评论 -
Hadoop笔记——Yarn的部署与MapReduce程序测试
Yarn(Apache Hadoop YARN)是Hadoop的一部分,负责Hadoop集群的资源调度。事实上,Yarn本身也是一个集群,它主要包括4个部分:ResourceManager(RM):RM是一个全局的资源管理器,负责整个系统的资源管理和分配。ApplicationMaster(AM):用户提交的每个应用程序均包含一个AM,负责向RM申请资源(Container),并分配给对应的应用程序。NodeManager(NM):NM是集群每个主机节点上的资源和任务管理器。* Container原创 2020-06-05 17:36:52 · 532 阅读 · 0 评论 -
Hadoop笔记——Hadoop集群安装与部署
一、Hadoop安装Apache版本和CDH版本二、集群环境准备三、Hadoop的三种运行模式(一)本地运行模式(二)伪分布式运行模式(三)完全分布式运行模式原创 2020-06-05 15:48:28 · 788 阅读 · 0 评论 -
Hadoop笔记——集群分发脚本xsync与SSH免密登录
Hadoop集群的主机数量众多,当需要对每个主机进行相同的更改时,如修改了某个配置文件,可以只更改一台主机上的文件,然后使用scp(secure copy)安全拷贝指令分发到其他所有主机。为了使用方便,因此进一步编写了xsync脚本。原创 2020-06-04 19:52:35 · 482 阅读 · 0 评论 -
Hadoop笔记——Hadoop概述
Hadoop是大数据技术的基础,是一个由Apache基金会所开发的分布式系统架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop最核心的三部分是HDFS、Yarn和MapReduce原创 2020-06-03 09:24:38 · 282 阅读 · 0 评论