2014年11月_笔尖的痕

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 Hadoop-2.2.0中文文档—— Common - 服务层认证

目的此文档描述了如何为Hadoop配置和管理 Service Level Authorization 。预备条件确保已经安装Hadoop,配置和设置都正确了。更多细节，请看：* 首次使用者的单节点设置 * 大的、分布式集群的集群设置。概览Service Level Authorization 是一个必要的初始认证机制，其确保客户端连接到一个有必要的、预配

2014-11-19 15:50:35 731

转载 Hadoop-2.2.0中文文档—— Common - 超级用户模拟别的用户

简介此文档描述了一个超级用户如何在安全的方式下以另一用户的名义提交作业或访问hdfs。Use Case下一部分描述的的代码示例对此用户用例是可用的。一个用户名为'super'的超级用户想要以另一用户joe的名义提交作业或访问hdfs。超级用户有kerberos证书但是用户joe并没有。任务要求以用户joe的角色运行并且namenode上的文件访问也需要由joe完成。需要

2014-11-19 15:38:42 869

转载 Hadoop-2.2.0中文文档—— Common - CLI MiniCluster

目的使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群，不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序的用户很有用。Hadoop

2014-11-19 11:55:18 737

转载 Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort

简介可插入的 shuffle 和 sort 功能，允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是：用一个不是HTTP的应用协议，如RDMA来 shuffle 从Map节点中到Reducer节点的数据；或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。重要: 可插入的 shuffle sort 功能是实验性的、不稳定。这意味着提

2014-11-19 11:50:07 827

转载 Hadoop-2.2.0中文文档—— MapReduce 下一代 - Encrypted Shuffle

简介 Encrypted Shuffle capability (加密洗牌功能?)允许用HTTPS 和可选的客户端验证 (也称作双向的 HTTPS, 或有客户端证书的 HTTPS) 去加密 MapReduce shuffle.它包括:在HTTP 和 HTTPS 之间绑定 shuffle 的一个 Hadoop 配置用来指定 keystore 和 truststore 属性的Hado

2014-11-19 11:34:16 865

转载 Hadoop-2.2.0中文文档—— MapReduce 下一代--容量调度器

目的这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器，如他们的应用能适时被分配限制的容量。概述CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。传统上，每一个组织都会有它自己的私有电脑资源，在顶峰或接近顶峰状态有充足的容量来面对组织的SLA

2014-11-18 14:53:29 668

转载 Hadoop-2.2.0中文文档——MapReduce--写YARN应用

概念和流普遍的概念是一个 '一个应用提交客户端' 提交一个 '应用' 给 YARN资源管理器。客户端和服务端用 'ApplicationClientProtocol' 通信，若需要会首次通过ApplicationClientProtoco#getNewApplicationl获取一个新的 'ApplicationId' ，然后通过ApplicationClientProtocol#subm

2014-11-18 14:00:22 736

转载 Hadoop-2.2.0中文文档—— Shell命令

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认schem

2014-11-18 01:59:13 708

转载 Hadoop-2.2.0中文文档——MapReduce 下一代 -——集群配置

目的这份文档描述了如何安装、配置和管理从几个节点到有数千个节点的Hadoop集群。玩的话，你可能想先在单机上安装。(看单节点配置)。准备从Apache镜像上下载一个Hadoop的稳定版本。安装安装一个Hadoop集群，一般包括分发软件到所有集群中的机器上或者是安装RPMs。一般地，集群中的一台机器被唯一地设计成NameNode,另一台机器被设置成Reso

2014-11-18 01:48:02 764

转载 Apache Twill—YARN上应用程序开发包

尽管YARN自带的编程API已经得到了极大的简化，但从头开发一个YARN应用程序仍是一件非常困难的事情。在YARN上编写一个应用程序，你需要开发Client和ApplicationMaster两个模块，并了解涉及到的几个协议的若干API和参数列表，其中ApplicationMaster还要负责资源申请，任务调度、容错等，总之，整个过程非常复杂。Apache Twill(官方首页：A

2014-11-17 23:01:28 1386

转载 Apache Spark探秘：多进程模型还是多线程模型？

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二者在server

2014-11-12 14:19:12 1035 1

转载 OpenStack网络组件Neutron的研究

本文将会涵盖如下几个部分：- Openstack网络组件的发展历程- Neutron的结构- Neutron Server的结构- Neutron的配置1.1 nova-networkOpenstack在2010年正式发布它的第一个版本Austin的时候，nova-network作为它的核心组件被包含其中。nova-network的功能主要有：

2014-11-11 17:48:40 1396

转载 Ironic , Openstack Baremetal Hypervisor

如今Openstack在虚拟化管理部分已经很成熟了，通过nova我们可以创建虚拟机，虚拟磁盘，管理电源状态，快速通过镜像启动虚拟机。但是在物理机管理上一直没有成熟的解决方案。在这样的背景下Ironic诞生了，它可以解决物理机的添加，删除，电源管理和安装部署。Ironic最大的好处是提供了插件的机制让厂商可以开发自己的driver，这让它支持几乎所有的硬件。Ironic的前世和

2014-11-11 11:18:32 4175

转载 OpenStack大数据项目Sahara概述

2013年4月，OpenStack社区知名厂商Mirantis正式宣布了基于OpenStack的开源BDaaS（BigData-as-a-Service）项目——Sahara（原名Savanna），正式开始了在OpenStack上构建大数据服务能力的努力。近日，开源技术专家章宇（@一棹凌烟）在其博客上分享了对Sahara项目的研究心得。整个介绍系列分为7篇文章，除前言部分外，其余六篇分别是

2014-11-09 20:34:16 2720

转载如何为CentOS 7配置静态IP地址

如果你想要为CentOS 7中的某个网络接口设置静态IP地址，有几种不同的方法，这取决于你是否想要使用网络管理器。网络管理器（Network Manager）是一个动态网络的控制器与配置系统，它用于当网络设备可用时保持设备和连接开启并激活。默认情况下，CentOS/RHEL 7安装有网络管理器，并处于启用状态。使用下面的命令来验证网络管理器服务的状态：$ systemc

2014-11-07 23:09:27 2717

转载 Clojure Dev. on Eclipse

本文关注怎样在eclipse上搭建基本的Clojure开发环境。本文读者需要有Java的开发经验和eclipse的使用经验，最好有Maven使用经验。1. 基础概念1.1. ClojureClojure 是以JVM为基础平台的 Lisp 方言，属于现代的函数式语言。关于Clojure本身可以访问其官网（http://clojure.org/）进行了解。1.2.

2014-11-04 08:44:14 1050

转载 Lambda架构

sentric » Lambda Architecture, Part 1Hadoop框架带来了批量数据处理，但是网络规模大数据的实时处理仍然是一个挑战。有很多技术可以用来建立这样一个完整的数据处理系统 - 但要选择合适的工具并且编排使用它们却是复杂和艰巨的。Nathan Marz将任何数据系统都可定义为：“query = function(all data)”L

2014-11-04 02:47:50 1425

转载 Linkedln技术高管Jay Kreps：Lambda架构剖析

Jay Kreps是Linkedln的一名在线数据架构技术高管，其负责Linkedln开源项目，包括Apache Kafka、Apache Samza、Voldemort以及Azkaban等项目。在日常工作中，Jay Kreps经常被问及有关Lambda架构的问题，为此他结合实际经验和个人体会，把使用Lambda架构的心得总结为以下几点，我们一起来看下：Lambda架构的组成该架构

2014-11-04 02:45:32 1581

转载 TableExistsException: hbase:namespace

准备记录下我在学习和工作中遇到的hbase报错信息及解决方案。描述：HMaster启动之后自动挂掉，并且master的log里出现“TableExistsException: hbase:namespace”字样，很可能是更换了Hbase的版本过后zookeeper还保留着上一次的Hbase设置，所以造成了冲突。解决：zookeeper还保留着上一次的Hbase

2014-11-02 14:54:04 2601