Hadoop
devalone
这个作者很懒,什么都没留下…
展开
-
Hadoop 分布式文件系统 (The Hadoop Distributed Filesystem)
Hadoop 分布式文件系统 (The Hadoop Distributed Filesystem)当一个数据集过度成长为超过一台物理机器的存储能力时,切分它以跨多台台机器分别存储就变得必要了。管理通过网络连接的多台机器存储的文件系统称为分布式文件系统(distributed filesystems)。因为它们是基于网络的,带来了网络编程所有的复杂性,因而使分布式文件系统比常规的磁盘文件系统...原创 2018-06-12 11:14:17 · 1418 阅读 · 0 评论 -
Hadoop 系统管理 (Administering Hadoop)
1. HDFS1.1 永久性数据结构( Persistent Data Structures )作为管理员,对 HDFS 组件 ———— the namenode, the secondary namenode, and the datanodes 等在磁盘上如何组织它们的持久化数据有一个基本理解是非常重要的。 Namenode 的目录结构( Namenode direct...原创 2018-06-19 11:04:36 · 695 阅读 · 0 评论 -
Ambari 操作指南 (Ambari Operations) 之三
继 (Ambari 操作指南 (Ambari Operations) 之二 : https://blog.csdn.net/devalone/article/details/80800262 ) 6 管理配置 (Managing Configurations)可以通过调整配置设置和属性值来优化集群上的 Hadoop 组件的性能。也可以利用 Ambari Web 通过如下方法,...原创 2018-06-26 11:57:20 · 3579 阅读 · 0 评论 -
Hadoop 之管理 Avro
Hadoop 之管理 AvroApache Avro 是一个中立语言的(language-neutral) 数据序列化系统。该项目由 Doug Cutting (the creator of Hadoop) 创建,旨在解决 Hadoop Writables 的主要不足:缺乏语言可移植性。拥有一个可以被多种语言处理的数据格式比只绑定到单一语言上的数据格式更易于与更广泛的应用共享数据集。 A...原创 2018-07-02 10:51:37 · 683 阅读 · 0 评论 -
Ambari 2.6.1 构建 Hadoop 集群 ---- CentOS 7
1. 准备 ( Getting Ready )Ambari 为 Hadoop 集群提供了一个端对端的管理和监控方案(end-to-end management and monitoring solution)。利用 Ambari 的 Web UI and REST APIs, 可以在一个中心点部署、操作、管理配置,以及监控集群的所有节点服务。 1.1 确定安装栈兼容性 ( Det...原创 2018-06-20 12:29:07 · 3378 阅读 · 0 评论 -
Ambari 操作指南 (Ambari Operations) 之四
继 (Ambari 操作 (Ambari Operations) 之三 : https://blog.csdn.net/devalone/article/details/80813176 )8 启用服务自动启动 (Managing Alerts and Notifications)-----------------------------------------------------...原创 2018-06-27 11:04:19 · 9961 阅读 · 0 评论 -
Hadoop 之 ZooKeeper (一)
Hadoop 之 ZooKeeper本文介绍使用 Hadoop 的分布式协调服务构建通用的分布式应用 —— ZooKeeper。 ZooKeeper 是 Hadoop 分布式协调服务。写分布式应用是比较难的,主要是因为部分失败(partial failure). 当一条消息通过网络在两个节点间发送时,如果发生网络错误,发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前...原创 2018-07-03 10:09:26 · 559 阅读 · 0 评论 -
Ambari 操作指南 (Ambari Operations) 之五
继 (Ambari 操作 (Ambari Operations) 之四 : https://blog.csdn.net/devalone/article/details/80826036 )9. 使用 Ambari 核心服务 (Using Ambari Core Services)-----------------------------------------------------...原创 2018-06-28 12:58:52 · 2717 阅读 · 0 评论 -
Hadoop 之 ZooKeeper (二)
继 Hadoop 之 ZooKeeper (一) 4. 使用 ZooKeeper 构建应用 (Building Applications with ZooKeeper)4.1 一个配置服务 (A Configuration Service) 分布式应用所需要的基本服务之一是配置服务,它使配置信息中那些公共的部分可以由集群中的机器共享。简单来说,ZooKeeper 可以作为...原创 2018-07-04 09:03:32 · 288 阅读 · 0 评论 -
Hadoop 之关于 HBase
1. HBase 基础 HBase 是构建于 HDFS 之上的面相列分布式数据库。如果要求实时的随机访问(读/写)大规模数据集,就可以使用 HBase 这一 Hadoop 应用。虽然数据库的存储和检索有很多不同的策略和实现,但大多数解决方案 ———— 特别是许多关系型数据库的变种 ———— 它们不是构建于大规模和分布式思想。很多厂商提供复制和分区解决方案来将数据库从单个节点边界扩展出去...原创 2018-07-05 10:40:28 · 661 阅读 · 0 评论 -
Ambari 操作指南 (Ambari Operations) 之二
(继 Ambari 操作指南 (Ambari Operations) 之一 https://blog.csdn.net/devalone/article/details/80781652) 5. 管理服务高可用性 (Managing Service High Availability)Ambari web 提供了向导驱动的用户体验,可以配置一些 Hortonworks Data ...原创 2018-06-25 12:25:01 · 5279 阅读 · 0 评论 -
Ambari 操作指南 (Ambari Operations) 之六
继 (Ambari 操作指南 (Ambari Operations) 之五 ) 9.2 Ambari 日志搜索 (Ambari Log Search, Technical Preview)下面几节描述 Ambari Log Search 的技术概览(Technical Preview), 只能在少于 150 个节点的非生产环境集群上使用。 9.2.1 Ambari 日志搜索体系结...原创 2018-06-29 11:34:16 · 5511 阅读 · 2 评论 -
Hadoop YARN
Hadoop YARNApache YARN (Yet Another Resource Negotiator) 是 Hadoop 集群资源管理系统。YARN 由 Hadoop 2 引入以改进 MapReduce 实现,但它是通用的,足以支持其他分布式计算模型。YARN 为请求提供 API 并与集群资源共同工作,但这些 API 通常不是由用户代码直接使用的。相反,用户使用由其他分布式计...原创 2018-06-13 15:35:19 · 877 阅读 · 0 评论 -
Hadoop 的 I/O 操作
Hadoop 的 I/O 操作Hadoop 自带了一套基本数据类型的数据 I/O . 其中的一些技术比 Hadoop 本身更加通用,例如数据完整性和压缩机制,但当处理多字节 (multiterabyte datasets)数据集时应给予专门的考虑。其他则是 Hadoop 工具或 API ,它们形成开发分布式系统的构件,例如序列化框架(serialization frameworks)和 磁盘...原创 2018-06-14 11:16:49 · 579 阅读 · 0 评论 -
Ambari 系统管理 (Ambari Administration) 之一
1. Ambari 系统管理概述 (Ambari Administration Overview)Apache Ambari 可使你能够提供,管理,和监控 Hadoop 集群。如果负责安装和维护 Ambari, 以及通过 Ambari 来管理 Hadoop 集群,应使用本指南。安装 Ambari 创建默认的用户/密码 admin/admin. 这是 Ambari 级系统管理员用户(Am...原创 2018-06-22 10:10:57 · 4207 阅读 · 0 评论 -
Ambari 系统管理 (Ambari Administration) 之二
(继 Ambari 系统管理 (Ambari Administration) 之一: https://blog.csdn.net/devalone/article/details/80769775) 9. 迁移 ZooKeeper Server (Moving the ZooKeeper Server)将 ZooKeeper server 迁移到一部新的主机上步骤: (1...原创 2018-06-22 10:14:23 · 1819 阅读 · 0 评论 -
Hadoop MapReduce 的工作机制
Hadoop MapReduce 的工作机制1 剖析 MapReduce 作业运行机制可以通过一个简单的方法调用来运行 MapReduce 作业: Job 对象上的 submit() 。也可以调用 waitForCompletion() ,它用于提交以前没有提交过的作业,并等待它的完成。submit() 方法调用封装了大量的处理细节。用于执行的框架通过 mapreduce.frame...原创 2018-06-14 14:08:18 · 307 阅读 · 0 评论 -
Hadoop MapReduce 的类型与格式 (MapReduce Types and Formats)
Hadoop MapReduce 的类型与格式 (MapReduce Types and Formats)1 MapReduce 类型 (MapReduce Types)Hadoop 的 MapReduce 中的 map 和 reduce 函数遵循如下一般性格式: map: (K1, V1) → list(K2, V2) reduce: (K2, list(V...原创 2018-06-15 11:39:17 · 1346 阅读 · 0 评论 -
Ambari 操作指南 (Ambari Operations) 之一
1. Ambari 操作指南: 概述 (Ambari Operations: Overview)Hadoop 是用在商业主机网络集群上的大规模、分布式的数据存储和处理基础架构。监控和管理如此复杂的分布式系统是不简单的。为了管理这种复杂性,Apache Ambari 从集群节点和服务收集了大量的信息,并把它们表现为容易使用的,集中化的接口:Ambari WebAmbari Web 显示诸如...原创 2018-06-23 10:47:40 · 16038 阅读 · 3 评论 -
MapReduce 特性 ( MapReduce Features )
MapReduce 特性 ( MapReduce Features )本章讨论 MapReduce 的一些高级特性,包括计数器、排序和链接数据集( ddatasets)。1 计数器( Counters )计数器是收集作业统计信息的有效手段:用于质量控制或应用级别的统计。它们对问题诊断也有帮助。如果冒险用一个日志消息记录 map 或 reduce 任务,最好看看是否能用个计数器替...原创 2018-06-16 11:04:03 · 680 阅读 · 0 评论 -
构建 Hadoop 集群
构建 Hadoop 集群 安装选项: 1. Apache tarballs :The Apache Hadoop project and related projects provide binary (and source) tarballs for each release. 2. Packages :RPM and Debi...原创 2018-06-17 10:34:43 · 607 阅读 · 0 评论 -
Ambari 安装确认主机 “SSLError“ 错误 终极解决方案
Ambari 安装过程中,确认主机步骤(Confirm Hosts) 遇到如下错误:ERROR 2018-08-02 11:25:09,300 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)ERROR 2018-08-02 11:25:09,300 NetUtil.py:97 - SSLError: Fai...原创 2018-08-02 12:26:32 · 9317 阅读 · 9 评论