Hadoop
sunzhenzhencomeon
这个作者很懒,什么都没留下…
展开
-
MapReduce的容错机制
MapReduce提供了很好的容错机制,所谓容错就是允许在整个任务执行过程中TaskTracker中间出现当机,发生故障,或JVM发生重启等等一些情况都允许它出错, 出错有两种机制, 1.重复执行 出错有可能是job出错,有可能是硬件的问题,也有可能是数据的问题,不管什么样的问题,首先会尝试重试,再次执行,也就是重复执行,重复执行一般默认重复执行4次后,如果还是失败的话就放弃执行。 2.推转载 2016-09-19 10:25:49 · 1960 阅读 · 0 评论 -
Hadoop入门和大数据应用
网址:http://edu.csdn.net/course/detail/1386 欢迎大家分享原创 2016-10-13 15:06:21 · 368 阅读 · 0 评论 -
WordCount单词计数
计算文件中出现每个单词的频数。输入结果按照字母顺序进行排序。转载 2016-09-19 14:25:25 · 347 阅读 · 0 评论 -
Hadoop安装总结
在Linux中安装JDK,并设置环境变量: 1.安装好jdk: apt-get install openjdk-7-jdk 2.配置环境变量: vim /etc/profile export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=$JAVA转载 2016-09-12 16:20:14 · 662 阅读 · 0 评论 -
HDFS介绍
Hadoop中包括两个重要组成部分:1.文件系统HDFS,2.一个是MapReduce并行计算框架 HDFS设计架构。 -块(Block)-NameNode -DateNode 块在操作系统文件系统中指一个固定大小的逻辑单元 HDFS的文件被分成块进行存储,HDFS块的默认大小64MB,块是文件存储处理的逻辑单元 HDFS中有两类节点,NameNode和DateNode NameNod转载 2016-09-13 11:20:35 · 260 阅读 · 0 评论 -
HDFS中数据管理与容错
每个数据块3个副本,分别在两个机架内的三个节点。 当节点发生故障,要保证数据不能丢失,因此数据块有多份冗余,三分数据库其中有两块在同一机架上面,还有一块在另外一个节点上面。这样某个节点挂了后,可以在相同机架上找到,如果整个机架发生故障,还可以在另外一个机架上找到,来确保数据相对可靠。这是数据库的放置。 还有一个心跳检测:DataNode定期向NameNode发送心跳消息,DataNod转载 2016-09-13 11:59:07 · 1047 阅读 · 1 评论 -
HDFS中文件读写的流程
1.HDFS文件的读取流程: 客户端向NameNode发送文件读取请求,NameNode给客户端返回元数据,就知道文件包含哪些块,以及这些块在哪些DataNode找的到,客户端读取blocks,下载下来后,进行组装。 2.HDFS写入文件的流程 文件拆分成块,通知NameNode.NameNode会找到一些可用的当前在线也有足够磁盘空间的DataNodes,返回给客户端,根据返回的D转载 2016-09-13 13:55:30 · 449 阅读 · 0 评论 -
HDFS命令行操作演示
HDFS里面提供了shell接口,可以使用HDFS命令行来操作HDFS,和Linux命令很相似。转载 2016-09-13 14:23:29 · 341 阅读 · 0 评论 -
MapReduce原理
采用分而治之的思想,将一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce). 比如说有一千付扑克牌,不含大小王,混合在一起,其中少了一张牌,现在要找出少了哪张牌。 可以先随机分成n份,交给n个人,每个人分别统计每个花色的牌有多少张,然后数据交换,规约,再次统计,筛选出结果。 再如,100GB的网站访问日志文件,找出访问次数最多的IP地址。 可以先把日志按时间顺序进行转载 2016-09-18 16:58:25 · 188 阅读 · 0 评论 -
MapReduce的运行流程
基本概念 -Job&Task Job就是一个作业,要完成的话,要分成多个task.task里又分为MapTask和ReduceTask 在Hadoop MapReduce体系结构中有两类节点,JobTracker,客户端提交任务过来,JobTracker把它放到候选队列中去,在适当的时候,调度一个Job出来,将这个Job分成多个Map任务和Reduce任务,Map任务分发给下面的TaskTr转载 2016-09-18 17:33:16 · 281 阅读 · 0 评论 -
HDFS的特点
1.数据冗余,硬件容错 数据做了大量冗余,用三个备份来实现硬件上的容错。 2.流式的数据访问 数据写一次读多次,被写入后不能修改液没办法修改 3.存储大文件 适用性和局限性 -适合数据批量读写,吞吐较高 -不适合交互式应用,低延迟很难满足 -适合一次写入多次读取,顺序读写 -不支持多用户并发写相同文件转载 2016-09-13 14:16:24 · 665 阅读 · 0 评论