Hadoop
肯德基套餐
这个作者很懒,什么都没留下…
展开
-
Hadoop中的Namenode、Datanode和Secondary Namenode
1.namenodeNamenode 管理着文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata),比如命名空间信息,块信息等。管理这些信息的文件有两个,分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log),这些信息被Cache在RAM中,当然,这两个文件也会原创 2018-01-14 22:46:02 · 4859 阅读 · 0 评论 -
Hadoop Name 无法启动 Caused by: java.net.BindException: Address already in use
启动hadoop 后,jps如下,没有datanode 查看hadoop/log 下的namenode日志如下9829 ResourceManager6887 Worker2615 Main9657 SecondaryNameNode9993 NodeManager5500 Launcher4685 Launcher6798 Master9470 DataNode201...原创 2018-08-28 15:04:21 · 2263 阅读 · 0 评论 -
Some Questions about MapReduce
一、MapReduce作业在计算过程中会使用和产生哪些数据?这些数据是如何存储的,目前MapReduce提供哪些安全机制保护这些数据的机密性和完整性?使用源数据,产生MR中间结果数据,以及每次RDD操作中持久化的数据。如何存储:源数据数据和最终的结果都保存在HDFS上,中间结果存在本地中间结果使用完就会被删除;通过hdfs的块本分机制和RDD的依机制来保证完整性,当发生错误的时候可以及...原创 2018-07-28 15:32:25 · 9594 阅读 · 0 评论 -
MapReduce实现wordcount
Mapper程序import sysdef read_input(file): for line in file: yield line.split()def main(): data = read_input(sys.stdin) for words in data: for word in words: ...原创 2018-07-28 15:31:37 · 284 阅读 · 0 评论 -
namenode无法启动问题
Hadoop中运行start-all命令后,通过jps查看进程,发现namenode并没有启动按照网上的方法,删除hadoop的临时目录tmp后重启,仍然没有查看日志如下 org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /usr/local/hadoop/hadoop-2.8....原创 2018-07-28 15:27:41 · 8422 阅读 · 0 评论 -
Hadoop任务调度策略
Hadoop在standalone模式下只有FIFO Scheduler 和 Fair Scheduler;Hadoop-yarn模式下有FIFO Scheduler,Capacity Scheduler 和 Fair Scheduler策略FIFO Scheduler: 先进先出策略,就是按照application提交的顺序来执行的 ,这些application都会放在一个队...原创 2018-07-28 15:26:17 · 3685 阅读 · 0 评论 -
Hadoop平台搭建
(一)安装Java jdk1.下载jdk并安装从官网下载后找个,在usr/local/java文件夹下解压 ,用到的命令 ...原创 2018-07-28 15:24:04 · 1535 阅读 · 0 评论 -
Datenode无法启动
启动hadoop的时候,通过jps查看进程,发现namenode RM和Secondary NameNode都有,但datanode没有启动,datanode的启动日志如下划线部分如下:2018-06-04 18:26:58,317 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage dire...原创 2018-07-28 15:19:36 · 2641 阅读 · 2 评论 -
Hadoop中Staging(客户端缓存)机制
客户端创建文件的请求其实并没有立即发送给 NameNode,事实上,在刚开始阶 段 HDFS 客户端会先将文件数据缓存到本地的一个临时文件。应用程序的写操作被透明地重定向到这个临时文件。当这个临时文件累积的数据量超过一个数据块的大小, 客户端才会联系 NameNode。 NameNode 将文件名插入文件系统的层次结构中,并且 分配一个数据块给它。然后返回 DataNode 的标识符和目标数据块...原创 2018-02-12 00:29:07 · 1687 阅读 · 2 评论 -
Hadoop中datanode故障问题
当向datanode写数据的过程中发现datanode存在故障时,namenode会重新分配一个datanode个pipline进行写操作,这个datanode如果故障了,这上面的block没有了,其他datanode上还有这个block的备份,不过现在该block在系统中的总备份数为2,(坏了一个),下次hdfs使到该块时,会检测到该块的备份数为2,会重新备份让replication数达到3...原创 2018-02-12 00:27:45 · 2895 阅读 · 0 评论 -
深入理解HDFS
HDFS写数据流程客户端将数据写入HDFS的流程图如下: 流程如下:使用HDFS提供的客户端Client, 向远程的Namenode发起RPC请求 Namenode会检查要创建的文件是否已经存在, 创建者是否有权限进行操作, 成功则会为文件创建一个记录, 否则会让客户端抛出异常; 当客户端开始写入文件的时候, 客户端会将文件切分成多个packets, 并在内部以数据队列“dat...原创 2018-02-09 13:13:16 · 17034 阅读 · 0 评论 -
Hadoop文件上传时的Staging缓存机制
客户端创建文件的请求其实并没有立即发送给NameNode,事实上,在刚开始阶段 HDFS客户端会先将文件数据缓存到本地的一个临时文件。应用程序的写操作被透明地重定向到这个临时文件。当这个临时文件累积的数据量超过一个数据块的大小, 客户端才会联系NameNode。NameNode将文件名插入文件系统的层次结构中,并且 分配一个数据块给它。然后返回 DataNode的标识符和目标数据块给客户端。接着客原创 2018-01-14 22:51:58 · 1947 阅读 · 0 评论 -
查看hdfs 文件夹大小
hadoop fs -du -s -h +文件夹名原创 2018-09-10 14:40:15 · 4332 阅读 · 0 评论