Hadoop
文章平均质量分 76
数据圈
踏踏实实搞学习
展开
-
【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(单机模式+伪分布模式)
一.安装须知Hadoop版本问题:Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材上用的可能是 0.20 这样的版本。Hadoop 2.x 版本在不断更新,本教程均可适用。如果需安装 0.20,1.2.1这样的版本,本教程也可以作为参考,主要差别在于配置项,配置请参考官网教程或其他教程。自学建议安装最新版本,目前是hadoop2.7.2单机原创 2016-10-10 21:51:50 · 4452 阅读 · 0 评论 -
【Hadoop入门学习系列之二】HDFS架构和编程
一. HDFS概述1.HDFS是什么?源自于Google的GFS论文 发表于2003年10月HDFS是GFS克隆版Hadoop Distributed File System 易于扩展的分布式文件系统运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务2.HDFS优缺点优点高容错性 数据自动保存多个副本副本丢失后,自动恢复适合批处理 移动计算而非数据原创 2016-10-23 12:07:28 · 1245 阅读 · 0 评论 -
【Hadoop入门学习系列之三】YARN原理和资源调度
一.Hadoop YARN产生背景Mapreduce1.0版本固有的问题 扩展性受限单点故障难以支持MR之外的计算资源利用率 运维成本和数据共享【多计算框架各自为战,数据共享困难】 MR:离线计算框架 Storm:实时计算框架 Spark:内存计算框架运维成本 如果采用“一个框架一个集群”的模式,则可能需要多个管理员管理这些集群,进而增加运维成本, 而共享模式通常需原创 2016-10-23 17:43:21 · 5300 阅读 · 1 评论 -
【Hadoop入门学习系列之四】MapReduce 2.0应用场景和原理、基本架构和编程模型
一.MapReduce的应用场景1.MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 备注:*MR的最后一个特性就注定了它的应用场景的特定性,专门为处理离线批量大数据*而生。 问:那MR不擅长什么啊?它不擅长的东西谁比较擅长呢?2.MapReduce的特色—不擅长的方面实时计算spark 像MySQL一样,在毫秒级或者秒级内返回原创 2016-10-24 15:11:28 · 3437 阅读 · 0 评论 -
【Hadoop入门学习系列之五】MapReduce 2.0编程实战
一.MapReduce2.0编程模型关于MR编程模型请参考上一篇:【Hadoop入门学习系列之四】MapReduce 2.0应用场景和原理、基本架构和编程模型二.MapReduce2.0编程接口三种编程方式Java(最原始的方式)Java编程接口组成; 旧API所在java包:org.apache.hadoop.mapred 新API所在java包 :org.apache.hadoop.map原创 2016-10-24 22:52:05 · 2294 阅读 · 0 评论 -
hadoop安装配置中的权限管理
1.添加一个hadoop组sudo addgroup hadoop2.将当前用户hadoop加入到Hadoop组sudo usermod -a -G hadoop hadoop3.将hadoop组加入到sudoersudo gedit etc/sudoers在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL4.修改hadoop目原创 2016-10-14 17:55:49 · 1580 阅读 · 0 评论 -
【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(完全分布模式)
一.前言hadoop的安装模式主要有三种:单机模式,伪分布模式和集群模式。单机模式和伪分布模式的安装配置请参考上文【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(单机模式+伪分布模式),真正使用时使用的是hadoop的集群模式。 本文主要讲解在Linux环境下hadoop集群模式的安装和配置。二.安装步骤1.在虚拟机中安装三个Linux虚拟机 主机名分别为Master,Slav原创 2016-10-15 20:49:50 · 1617 阅读 · 0 评论 -
【Hadoop入门学习系列之六】HBase基本架构、编程模型和应用案例
一.HBase概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲, HBase将数据按照表、行和列进行存储。Hbase是Hadoop生态系统的一个组成部分 Hbase与HDFS对比共同点: 两者都具有良好的容错性和扩展性,都可以扩展到成百上千个节点;不同点: HDFS: 适合批处理场景原创 2016-10-26 15:40:33 · 1433 阅读 · 0 评论 -
hadoop从本地复制文件到hdfs上发生错误Name node is in safe mode的解决方法
hadoop dfsadmin -safemode leave原因: 在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程原创 2017-06-16 15:23:36 · 921 阅读 · 0 评论