![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop学习
文章平均质量分 66
enj3017
这个作者很懒,什么都没留下…
展开
-
Hadoop Core_HDFS总结(二)
三、HDFS高可靠性措施 1)冗余备份 数据存储在这些 HDFS 中的节点上,为了防止因为某个节点宕机而导致数据丢失,HDFS 对数据进行冗余备份,至于具体冗余多少个副本,在 dfs.replication 中配置。 2)跨机架副本存放 仅仅对数据进行冗余备份还不够,假设所有的备份都在一个节点上,那么该节点宕机后,数据一样会丢失, 因此 HDFS 要有一个好的副本存放策略, 该策略还在开发...原创 2018-12-20 12:17:37 · 197 阅读 · 0 评论 -
Hadoop Core_HDFS总结(三)——思考问题
一、HDFS 为何要讲文件分成 block 块存储? 减少底层操作系统的 IO 读取时的寻址时间方便更高效的流式读取,提高吞吐量 二、HDFS block 块的默认大小时多少? dfs.blocksize 为 Hadoop 定义 block 块大小的设置参数,在 hdfs-site.xml 中版本不一样,默认值不同。Hadoop2.2.x 及以后版本均为 128M 三、HDFS blo...原创 2018-12-20 12:25:49 · 193 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(一)
一、 分布式计算框架 MapReduce 1、产生背景 Web2.0 时代,数据爆炸式、指数级增长,大数据分布式计算需求频繁 通过单机内存扩展来增强计算能力,已经无法承载大规模数据量的计算 分布式计算开发和维护的复杂与多变,对程序员要求太高 Google 公司为了解决其搜索引擎中大规模网页数据的并行化处理,研究提出的一种面向大规模数据处理的并行计算模型和方法,称为 MapReduce。 ...原创 2018-12-20 12:33:27 · 216 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(二)_WordCount
三、MapReduce Java API 应用 MapReduce 开发流程 (1)搭建开发环境,参考 HDFS 环境搭建,基本一致 (2)基于 MapReduce 框架编写代码 (3)编译打包,将源代码和依赖 jar 包打成一个包 (4)上传至运行环境 运行 hadoop jar 命令,现已由 yarn jar 替代,建议使用新命令提交执行 WordCount代码实现 Map类编写 Mappe...原创 2018-12-20 12:44:47 · 201 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(三)
四、 MapReduce Shell 应用 1、MapReduce 的二级命令 mapred 称为一级命令,直接输入 mapred 回车,即可查看二级命令: 2、MapReduce 的三级命令 输入一级命令 mapred 后,再任意输入一个二级命令,即可查看三级命令: 3、MapReduce shell 应用 查看当前正在执行的 job 任务 先提交一个 WordCou...原创 2018-12-20 12:49:35 · 103 阅读 · 0 评论 -
Hadoop Core_HDFS总结(四)——HDFS数据格式详解
据存储空间是有限的,数据本身和增量是动态变化的,企业要追求最佳的存储与计算的性价比。数据格式描述了数据保存在文件或者记录中的规则。HDFS 中分为文件格式和压缩格式。 1、文件格式 文件格式按面向的存储形式不同,分为面向行和面向列的两大类文件格式。 面向行 文本文件格式(.txt) 是(计算可切分) 查看便编辑简单...原创 2018-12-20 12:55:07 · 1268 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(四)
一 MR输出文件格式 (1)默认的输出文件格式是txt (2)设置输出格式为gzip 需要在执行yarn jar命令时添加传入的参数,添加参数设置模板: ``` yarn jar jar_path main_class_path -Dk1=v1 参数列表 <in><out> 实例: yarn jar TlHadoopCore-jar-with-depen...原创 2018-12-20 19:14:02 · 167 阅读 · 0 评论 -
Hadoop Core_HDFS总结(一)
一、产生背景 传统的本地文件系统(单机式),在数据量增长过快、数据备份、数据安全性、操作使用便捷性上存在严重不足。 二、架构设计 2.1. 定义 HDFS(Hadoop Distributed File System)Hadoop分布式文件系统。 2.2. 组件角色 1)NameNode: HDFS元数据管理者,管理 NameSpace(文件系统命名空间),记录文件是如何分割成数据块...原创 2018-12-17 16:40:58 · 1115 阅读 · 0 评论