hadoop
朱红旭
这个作者很懒,什么都没留下…
展开
-
一、什么是Apache Hadoop?
1、简介: Apache Hadoop是一个致力于可靠的,可伸缩的,分布式计算的开源项目,它允许使用简单的编程模型实现在上千台机器组成的集群中分布式地处理大型数据集,每台机器都提供本地计算和本地存储,与在硬件层面实现高可用相比,它是在应用层面监测和处理错误。 2、项目的组成部分: 该工程主要包含四个模块: Hadoop Common:供其他三个模块使用的工具类; Hadoop Distr...原创 2018-11-19 19:56:29 · 493 阅读 · 0 评论 -
二、Quick start!
1 、目标 配置一个单节点的原创 2018-11-19 20:05:26 · 136 阅读 · 0 评论 -
三、HDFS整体架构(上)
1、什么是HDFS? HADOOP DISTRIBUTE FILE SYSTEM:Hadoop分布式文件系统。 2、它的设计目标是什么? 高度容错,对硬件要求比较低; 流式处理数据,它是用来处理大批量对数据而不是响应式地处理用户请求; 简单的一致性模型; 移动计算能力而不是移动数据; 可移植性比较好。 3、整体架构 先来看一下官方提供的架构图: 下面是官方的原话: HDFS has a ma...原创 2018-11-22 18:57:11 · 209 阅读 · 0 评论 -
五、关于YARN
1、什么是YARN? 为了改善MapReduce的实现,在Hadoop2.X版本中,引入了YARN(Yet Another Resource Negotiator),但它具有足够的通用性,同样可以支持其它的分布式计算模式。YARN提供请求和使用资源的API,但这些API很少用于用户代码,相反,用户代码中使用的是分布式计算框架提供的更高层API,这些API建立在YARN之上并且向用户隐藏了资源管...原创 2018-11-24 17:56:51 · 162 阅读 · 0 评论 -
四、HDFS整体架构(下)
reference:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 5、Replica的数据放哪里? 首先需要清楚的是数据副本放置的位置对于HDFS的可靠性和性能有非常大的影响,其次在选择副本放置策略的时候,应该可靠性、可用性和带宽利用率三个方面来权衡,HDFS目前的策略是...原创 2018-11-23 15:22:33 · 146 阅读 · 0 评论 -
六、阿里云搭建Hadoop伪分布式环境
1、常见命令: hadoop fs -help: 查看文件系统帮助 hadoop fs -ls /: 显示目录信息 fs -mkdir -p /aa/bb/cc: 创建多级目录 hadoop fs -copyFromLocal copylocalfile /aa/bb/cc: 本地文件复制到HDFS hadoop fs -moveFromLocal moveLocalfile /aa/bb/cc...原创 2018-11-28 10:50:06 · 189 阅读 · 0 评论 -
八、搭建完全分布式Hadoop集群
1.电脑配置 i5四代处理器,256G固态硬盘的笔记本电脑上安装vmware,然后新建三个虚拟机,每个虚拟机分配888M内存。 2.搭建过程 first:三台虚拟机ssh能互相登陆,hostname分别为server1,server2,server3,对应的ip地址分别为:192.168.138.50,192.168.138.51,192.168.138.52,网络模式为NAT。 second:集...原创 2018-12-26 00:04:10 · 191 阅读 · 0 评论