On the way

丨靡不有初,鲜克有终;不忘初心,方得始终丨大数据方向自学探索者 | 欢迎交流学习 ™️...

基于MapReduce的应用案例

项目托管于 Github,欢迎Star | Fork环境说明Hadoop搭建环境:| 虚拟机操作系统: CentOS6.3 64位,单核,1G内存 | JDK:1.7.0_60 64位 | Hadoop:2.4.1MR程序编译环境:| Eclipse IED | mapred.Loc...

2017-12-06 21:48:41

阅读数:191

评论数:0

Yarn 中的调度策略剖析

YARN中的调度策略分为三种,FIFO调度器(FIFO Scheduler),容量调度器(Capacity Scheduler)和公平调度器(Fair Scheduler)。 YARN Resource Manager 默认的资源调度策略为容量调度器(Capacity Scheduler) 见y...

2018-04-03 15:19:06

阅读数:20

评论数:0

Hadoop MapReduce 计算框架剖析与学习笔记

要点剖析 MR程序性能优化 作业优化 作业输入和作业输出 要点剖析 【1】该键和值类必须由框架序列化,因此需要实现Writable接口。此外,关键类必须实现WritableComparable接口,以方便框架进行排序。 Input and Output types of a...

2018-03-23 09:09:59

阅读数:51

评论数:1

HDFS性能优化与学习笔记

HDFS要点 HDFS性能优化 HDFS故障恢复和容灾备份 HDFS要点 1.HDFS具有主/从架构。一个HDFS集群包含一个NameNode,一个主服务器,用于管理文件系统名称空间并管理客户端对文件的访问。此外,还有许多DataNode,通常是群集中的每个节点一...

2018-03-23 09:07:10

阅读数:66

评论数:1

Hadoop官方文档学习之 HDFS联邦体系结构

背景 HDFS有两个主要层次: Namespaces - 由目录,文件和块组成。 - 它支持所有与Namespaces相关的文件系统操作,例如创建,删除,修改和列出文件和目录。 块存储服务有两个部分: 块管理(在Namenode中执行) 通过处理注册和定期心脏跳动...

2018-03-06 20:35:07

阅读数:64

评论数:0

Hadoop官方文档学习之 HDFS高可用性QJM与NFS模式

背景 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。 HDFS高可用性功能通过提供在具有热备份的主动/被动配置中在同一集...

2018-03-06 17:04:44

阅读数:15

评论数:0

org.apache.hadoop.io.nativeio.NativeIO$Windows.access(null) entry in command string: null chmod 0700

环境:windowsHadoop版本:hadoop2.7.3开发工具:eclispe-hadoop-plugin运行map reduce任务报错:(null) entry in command string: null chmod 0700解决办法:在https://github.com/Swee...

2018-03-05 23:17:25

阅读数:48

评论数:0

HDFS高可用性 手动故障转移和自动故障转移配置教程

本文适用范围,对于任何官方开源包安装的集群环境 要配置HA NameNode,你必须将多个配置选项添加到你的hdfs-site.xml配置文件。这里我先给出全部的配置项,然后接下来会逐步提及各配置项。 <configuration> &...

2018-03-04 16:33:37

阅读数:103

评论数:0

HDFS创建全局快照

HDFS创建快照的详细说明文档请参见: [HDFS快照 | HDFS Snapshots] http://blog.csdn.net/coder__cs/article/details/79430333 允许创建目录的快照。如果操作成功完成,则该目录变为快照可见。 [elon@hadoop...

2018-03-03 15:13:42

阅读数:52

评论数:0

HDFS快照 | HDFS Snapshots

HDFS快照 概况 HDFS快照是文件系统的只读时间点副本。快照可以在文件系统的子树上或整个文件系统上进行。快照的一些常见用例是数据备份,防止用户错误和灾难恢复。 HDFS快照的实施非常高效: 快照创建是即时的:成本为O(1),不包括索引节点查找...

2018-03-03 14:50:20

阅读数:38

评论数:0

Hadoop集群垃圾箱配置 | fs.trash.interval

启用Hadoop集群垃圾箱配置 配置参数: <property> <name>fs.trash.interval</name> &am...

2018-03-03 14:12:10

阅读数:33

评论数:0

学习Hadoop官方文档之 Hadoop文件系统元数据的持久性与运作机制

NameNode中EditLog与FsImage文件的工作机制 EditLog和FsImage存储 HDFS名称空间由NameNode存储。NameNode使用名为EditLog的事务日志来持久记录元数据在本次集群启动后发生的所有更改操作。 例如,在HDFS中创建一个新文件会导致Name...

2018-03-03 10:59:11

阅读数:47

评论数:0

Hadoop平衡器管理员指南 | Hadoop Balancer Administrator Guide

平衡器是一种平衡HDFS集群磁盘空间使用情况的工具数据节点变满或新空节点加入群集时。该工具被部署为一个可由集群管理员在实时HDFS上运行的应用程序群集,而应用程序添加和删除文件。 SYNOPSIS To start: sbin/start-balancer.sh [-threshold &am...

2018-03-02 21:01:11

阅读数:31

评论数:0

Hadoop Web应用程序代理服务器 | Hadoop Web Application Proxy

Web Application Proxy Web Application Proxy 是YARN的一部分。 默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为以独立模式运行。 代理的原因是通过YARN减少网络攻击的可能性。 在YARN中,应用程序主(AM)有责任提供一个we...

2018-03-01 00:51:15

阅读数:132

评论数:0

ipc.Client: Retrying connect to server,failed on socket timeout exception (已解决)

在格式化NameNode出现下面异常,通过异常信息,我们初步可以看到是因为ipc.client,即无法访问集群中的journalnode主机所导致。 18/02/08 15:47:47 INFO namenode.FSNamesystem: Retry cache on namenode is ...

2018-02-08 16:16:48

阅读数:94

评论数:0

Hadoop集群搭建个人规范

从头至尾Hadoop多台主机集群搭建帮助文档资源 【链接:https://pan.baidu.com/s/1mjJPq2k 密码:9ukr】 补充事项: ○ CentOS6.6 镜像文件下载 地址:http://vault.centos.org/6.6/isos/x86_64/ ○ 集...

2018-02-08 14:37:18

阅读数:69

评论数:0

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..

启动或执行Hadoop | Spark程序时出现警告 18/01/22 17:50:39 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java class...

2018-01-22 19:33:37

阅读数:88

评论数:0

java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IIL...

在window Eclipse中运行Hadoop和Spark程序时会遇见如下异常错误java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/Byt...

2018-01-22 13:51:31

阅读数:336

评论数:1

Hadoop、Storm和Spark 三者的区别、比较

一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量首先整体认识:Hadoop是磁盘级...

2017-12-21 22:15:05

阅读数:147

评论数:0

Hadoop和Saprk的异同

解决问题的层面不一样首先Hadoop和Spark两者都是大数据框架,而Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,除了HDFS分布式文件系统以外,还提供MapReduce的数据处理功能;而Spark,则是一个专门用来对那些分...

2017-12-21 17:11:07

阅读数:105

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭