hadoop
0918L
CRUD
展开
-
hadoop当中支持的压缩算法
文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输前面hadoop的版本经过重新编译之后,可以看到hadoop已经支持所有的压缩格式了,剩下的问题就是该如何选择使用这些压缩格式来对MapReduce程序进行压缩可以使用bin/hadoop checknative 来查看编译之后的hadoop支持的各种压缩,如果出现openssl为false,那么就在线安装一下依赖包bin/ha...原创 2019-11-20 09:43:49 · 19906 阅读 · 2 评论 -
MapReduce当中的计数器
计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日志信息传输到map 或reduce 任务, 更好的方法通常是看能否用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言,使用计数器更为方便。除了因为获取计数器值比输出日志更方便,还有根据计数器值统计特定事件的发生次数要比分析一堆日志文件容易得多。hadoop内置计数器列表...原创 2019-11-20 09:30:35 · 20160 阅读 · 1 评论 -
MapReduce排序以及序列化
序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Java 的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(...原创 2019-11-20 09:20:38 · 19967 阅读 · 5 评论 -
MapReduce的分区与ReduceTask的数量
在MapReduce中,通过指定分区,会将同一个分区的数据发送到同一个reduce中,例如为了数据的统计,可以把一批类似的数据发 送到同一个reduce当中去,在同一个reduce中统计相同类型的数据,就可以实现类似数据的分区,统计等直观的说就是相同类型的数据,送到一起去处理,在reduce当中默认分区只有1个。MapReduce当中的分区类图...原创 2019-11-20 09:15:31 · 20099 阅读 · 1 评论 -
MapReduce编程初体验(WordCount)
需求:在给定的文本文件中统计输出每一个单词出现的总次数Map类:package itcast.demo01;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOExcep...原创 2019-11-20 08:55:39 · 20173 阅读 · 0 评论 -
HaDoop之MapReduce流程
MapReduce简介及优点MapReduce是一个分布式运算程序的编程框架,是Hadoop数据分析的核心MapReduce的核心思想是将用户编写的逻辑代码和架构中的各个组件整合成一个分布式运算程序,实现一定程序的并行处理海量数据,提高效率海量数据难以在单机上处理,而一旦将单机版程序扩展到集群上进行分布式运行势必将大大增加程序的复杂程度,所以引入MapReduce架构,开发人员可以将精力集...原创 2019-11-19 11:31:55 · 21526 阅读 · 0 评论 -
Namenode的故障恢复
cp /old/CentOS-Media.repo . mv CentOS-Media.repo local.repo原创 2019-11-11 20:46:50 · 21806 阅读 · 1 评论 -
hadoop各组件详解
一、Hadoop三大组件1.HDFS 分布式文件系统 2.MapReduce 分布式离线计算框架 3.Yarn 资源调度1.HDFS管理者:NameNode 1)作用 1.管理整个文件系统的元数据/名字空间/目录树 2.管理每一个路径/文件所对应的block块信息 3.管理DataNode的心跳日志 2)NameNode元数据持久化的2种形式 1.E...转载 2019-11-05 17:52:02 · 22988 阅读 · 2 评论