自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 第10 章构建Hadoop集群

建立一个集群的安装选项Apache tarball 二进制包 安装灵活,工作量大Packages 各个Linux 发行版提供的包集群管理工具 Cloudera Manager 和Apache Ambari集群规范Hadoop 运行在商业硬件上商业硬件并不等同于低端硬件也不...

2019-09-06 08:26:00 121

转载 第9章 MapReduce的特性

额,好多东东读不懂啊。。。。计数器作用:计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。任务计数器文件系统计数器FileInputFormat 计数器FileOutputFormat计数器作业计数器作业计数器由applicati...

2019-09-05 11:10:00 155

转载 第8章 MapReduce的类型与格式

MapReduce 的类型reduce函数的输入类型必须与map函数的输出类型匹配,但reduce函数的输出类型可以不同于输入类型输入格式输入分片与记录一个输入分片就是一个由单个map操作来处理的输入块 InputSplit接口文本输入TextInputFormat...

2019-09-04 16:39:00 243

转载 第 7 章 MapReduce的工作机制

剖析MapReduce 作业运行机制静态图:动态图:进度和状态的更新失败map任务或reduce 任务中的用户代码抛出运行异常JVM突然退出节点管理器运行失败资源管理器运行失败获得高可用性,HA, 在双机热备模式下,运行一对资源管理器是必要的shuffle ...

2019-09-04 15:33:00 169

转载 第6章 MapReduce应用开发

开发流程:首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预期。然后写一个驱动程序来运行作业,看这个驱动程序是否可以正确运行,可以先从本地IDE中用一个小的数据集来运行它。调试,改进部署到集群测试测试,改进正常运行之后,优化用于配置的APIConf...

2019-09-04 13:50:00 133

转载 第 5章 Hadoop的I/O 操作

额,从今天起用Project做了学习计划,计划26天能看完这本书,不知道能不能坚持到底,拭目以待1.数据完整性检测数据是否损坏在数据第一次引入系统时计算校验和并在数据通过一个不可靠的通道进行传输时再次计算校验和校验和也是可能损坏的错误检测码CRC-32 HDFS 使用的是一个更有...

2019-08-30 11:57:00 77

转载 第4章 关于YARN

介绍是Hadoop 的资源管理系统YARN提供请求和使用集群资源的API,但这些API很少直接用于用户代码。相反,用户代码中用的是分布式计算框架提供的更高层的API,这些API建立在YARN之上且向用户隐藏了资源管理细节。剖析YARN应用运行机制Resource Manager ...

2019-08-28 20:09:00 164

转载 第三章 Hadoop分布式文件系统-2

列出文件 fs.listStatusString uri = args[0]; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), ...

2019-08-28 14:16:00 150

转载 第三章 Hadoop分布式文件系统1

HDFS设计超大文件 PB 级流式数据访问一次写入,多次读取是最高效的访问模式商用硬件 (不需要高昂且高可用的硬件)节点故障率较高,某些应用不适合低时间延迟的数据访问要求低时间延迟的数据访问,例如几十毫秒范围不适合在HDFS上运行大量的小文件nameno...

2019-08-28 11:53:00 142

转载 第二章 关于MapReduce-2

运行MapReduce代码打jar包,不要包含依赖,使用maven的默认打包工具就行# ls hdfs的目录hadoop dfs -ls /user/hadoop/# 删除output 目录hadoop dfs rm -f -r /user/hadoop/output# 新建inp...

2019-08-28 11:52:00 106

转载 第二章 关于MapReduce-1

气象数据收集,自行百度吧MapReduce 的优势在于处理大规模数据集win10 安装hadoop 3.1.2win10 安装hadoop 3.1.2hadoop Linux安装配置(ubuntu 18.04 hadoop3.1.2)解压 tar.gz配置JAVA_HOME配置...

2019-08-28 11:51:00 175

转载 第一章 初识Hadoop

1. 2013 全球数据总量 4.4 ZB 预计2020 44ZB 1ZB=1000EB=1000 000 PB 1PB=1024TB2. 个人产生的数据在不断增长 物联网产生的数据3. 大数据胜于好算法对于某些应用来(譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛,基于小...

2019-08-28 11:50:00 146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除