hadoop
文章平均质量分 79
Zzreal
这个作者很懒,什么都没留下…
展开
-
hadoop常用shell
Shell操作(常用操作)1、 ls用法1:hadoop fs -ls /功能:列出hdfs文件系统根目录下的目录和文件用法2:hadoop fs -ls -R /功能:列出hdfs文件系统所有的目录和文件2、 put用法1:hadoop fs -put 功能:hdfs file的父目录一定要存在,否则命令不会执行用法2:hadoop fs -put 功原创 2017-11-06 13:49:22 · 3196 阅读 · 0 评论 -
hadoop单节点安装
Hadoop的单节点安装1、设置静态ipvim /etc/sysconfig/network-scripts/enth0(你想要设置成静态ip的网卡名)BOOTPROTO=static(将ip设置为静态)ONBOOT=yes(开机启动)IPADDR=192.168.122.1(你的ip地址,不知道的话可以使用命令ifconfig来查看)NETMASK=255.255.255原创 2017-08-08 10:13:11 · 3243 阅读 · 0 评论 -
关于hadoop配置文件的注解
关于hadoop配置文件a、yarn-site.xml yarn.nodemanager.aux-services yarn.resourcemanager.hostname yarn.resourcemanager.address yarn.resourcemanager.scheduler.address yarn.resourcemanager原创 2017-09-28 09:07:03 · 3490 阅读 · 0 评论 -
hadoop的三大核心组件之MapReaduce
Hadoop的三大核心组件之MapReaduceMapReduce是什么?MR是一个分布式计算框架,它是Hadoop的一个程序,不会产生进程。MR部分需要结合代码来理解学习,由于代码篇幅原因不方便截图,代码已经贴到github上,注释也挺详细,有需要的朋友可以去看,传送门:https://github.com/ZzzzZzreal/HadoopKeyPoints(DATA文件夹原创 2018-01-12 11:25:07 · 6251 阅读 · 0 评论 -
hadoop分布式集群搭建
Hadoop集群搭建*集群规划----分布式集群搭建的核心就是集群规划。hadoop采取master-slave结构(主-从结构),集群规划需要遵循主从分离原则,简单来说,就是namenode和datanode不能在一个结点上。做好集群规划之后,按以下步骤执行搭建:(以三台主机为例,假设主机名为PC01、PC02、PC03,PC01是主节点)1、设置静态ip=======集群每台机原创 2017-10-02 16:46:29 · 3181 阅读 · 0 评论 -
基于ZK的Hadoop HA高可用集群搭建
什么是高可用高可用性H.A.(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。HA三种工作方式(1)主从方式 (非对称方式)工作原理:主机工作,备机处于监控准备状况;当主机宕机时,备机接管主机的一切工作,待主机恢复正常后,原创 2018-01-12 14:05:06 · 3870 阅读 · 0 评论 -
hadoop优化
1、Hadoop常见问题A、单点故障B、小文件问题 C、数据处理性能2、优化思路A、从应用程序角度优化。由于mapreduce是迭代逐行解析数据文件的,怎样在迭代的情况下,编写高效率的应用程序,是一种优化思路。a、避免不必要的reduce任务。如果要处理的数据是排序且已经分区的,或者对于一份数据, 需要多次处理, 可以先排序分区;然后自定义InputSplit, 将单个分区作为单个原创 2017-09-26 14:48:51 · 3287 阅读 · 0 评论 -
理解HDFS文件的读与写过程
◆理解HDFS读与写过程HDFS读1. 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件2.FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。3.FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的r原创 2018-01-12 13:52:04 · 3212 阅读 · 0 评论 -
hadoop的三大核心组件之HDFS和YARN
Hadoop的三大核心组件之HDFS和YARNHadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。(1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。(2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /N原创 2017-09-26 14:42:04 · 22248 阅读 · 1 评论