Hadoop学习
文章平均质量分 66
enj3017
这个作者很懒,什么都没留下…
展开
-
Hadoop Core_HDFS总结(二)
三、HDFS高可靠性措施1)冗余备份数据存储在这些 HDFS 中的节点上,为了防止因为某个节点宕机而导致数据丢失,HDFS 对数据进行冗余备份,至于具体冗余多少个副本,在 dfs.replication 中配置。2)跨机架副本存放仅仅对数据进行冗余备份还不够,假设所有的备份都在一个节点上,那么该节点宕机后,数据一样会丢失, 因此 HDFS 要有一个好的副本存放策略, 该策略还在开发...原创 2018-12-20 12:17:37 · 198 阅读 · 0 评论 -
Hadoop Core_HDFS总结(三)——思考问题
一、HDFS 为何要讲文件分成 block 块存储? 减少底层操作系统的 IO 读取时的寻址时间方便更高效的流式读取,提高吞吐量二、HDFS block 块的默认大小时多少? dfs.blocksize 为 Hadoop 定义 block 块大小的设置参数,在 hdfs-site.xml 中版本不一样,默认值不同。Hadoop2.2.x 及以后版本均为 128M三、HDFS blo...原创 2018-12-20 12:25:49 · 195 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(一)
一、 分布式计算框架 MapReduce1、产生背景Web2.0 时代,数据爆炸式、指数级增长,大数据分布式计算需求频繁 通过单机内存扩展来增强计算能力,已经无法承载大规模数据量的计算 分布式计算开发和维护的复杂与多变,对程序员要求太高Google 公司为了解决其搜索引擎中大规模网页数据的并行化处理,研究提出的一种面向大规模数据处理的并行计算模型和方法,称为 MapReduce。...原创 2018-12-20 12:33:27 · 220 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(二)_WordCount
三、MapReduce Java API 应用MapReduce 开发流程(1)搭建开发环境,参考 HDFS 环境搭建,基本一致(2)基于 MapReduce 框架编写代码(3)编译打包,将源代码和依赖 jar 包打成一个包(4)上传至运行环境运行 hadoop jar 命令,现已由 yarn jar 替代,建议使用新命令提交执行WordCount代码实现Map类编写Mappe...原创 2018-12-20 12:44:47 · 204 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(三)
四、 MapReduce Shell 应用1、MapReduce 的二级命令mapred 称为一级命令,直接输入 mapred 回车,即可查看二级命令:2、MapReduce 的三级命令输入一级命令 mapred 后,再任意输入一个二级命令,即可查看三级命令:3、MapReduce shell 应用 查看当前正在执行的 job 任务先提交一个 WordCou...原创 2018-12-20 12:49:35 · 105 阅读 · 0 评论 -
Hadoop Core_HDFS总结(四)——HDFS数据格式详解
据存储空间是有限的,数据本身和增量是动态变化的,企业要追求最佳的存储与计算的性价比。数据格式描述了数据保存在文件或者记录中的规则。HDFS 中分为文件格式和压缩格式。1、文件格式文件格式按面向的存储形式不同,分为面向行和面向列的两大类文件格式。 面向行 文本文件格式(.txt) 是(计算可切分) 查看便编辑简单...原创 2018-12-20 12:55:07 · 1272 阅读 · 0 评论 -
Hadoop Core_MapReduce总结(四)
一 MR输出文件格式(1)默认的输出文件格式是txt(2)设置输出格式为gzip 需要在执行yarn jar命令时添加传入的参数,添加参数设置模板: ``` yarn jar jar_path main_class_path -Dk1=v1 参数列表 <in><out> 实例: yarn jar TlHadoopCore-jar-with-depen...原创 2018-12-20 19:14:02 · 170 阅读 · 0 评论 -
Hadoop Core_HDFS总结(一)
一、产生背景传统的本地文件系统(单机式),在数据量增长过快、数据备份、数据安全性、操作使用便捷性上存在严重不足。二、架构设计2.1. 定义HDFS(Hadoop Distributed File System)Hadoop分布式文件系统。2.2. 组件角色1)NameNode: HDFS元数据管理者,管理 NameSpace(文件系统命名空间),记录文件是如何分割成数据块...原创 2018-12-17 16:40:58 · 1117 阅读 · 0 评论