2013年12月_duheaven

原创云计算（二十四）- Apache Hadoop NextGen MapReduce (YARN)

前面学习了第一代的MR，今天开始学习一下YARN，MR部分的源码会在以后的源码分析中介绍，相关的优化也会在其中实现，该分析应该会在学习完大部分hadoop生态圈后进行深入的学习。下面开始正题：MapReduce在hadoop-0.23中已经进行了升级，这个升级被我们成为MapReduce 2.0 (MRv2)或者是YARN。MRv2的基本思路就是将MapReduce h

2013-12-28 19:27:32 951

原创云计算（二十三）-编写WordCount并使用MRUnit测试

1 建立一个java项目，将hadoop依赖的包导入项目中2 创建Mapper类public class MapperClass extends Mapper{IntWritable one = new IntWritable(1);Text word = new Text();protected void map(Object key, Text value,org.apac

2013-12-24 22:31:41 1472

原创 Hadoop的一些资源

博客：http://www.taobaotest.com/users/qa/blogs?uid=222http://dongxicheng.org/recommend/http://www.cloudera.com/content/cloudera/en/why-cloudera/hadoop-and-big-data.html

2013-12-22 18:19:58 992

转载云计算（二十二）- 分析MapReduce执行过程

MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图5-6所示。图5-6Mapper任务的执行过程每个Mapper任务是一个java进程，它会读取HDFS中的文件，解析

2013-12-22 10:45:28 938

转载云计算（二十一）- HDFS API详解

Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中，这些API能够支持的操作包含：打开文件，读写文件，删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem，该类是个抽象类，只能通过来类的get方法得到具体类。get方法存在几个重载版本，常用的是这个： static FileSystem get(Config

2013-12-21 17:13:37 782

转载云计算（二十）-Hadoop Streaming

Hadoop StreamingHadoop StreamingHadoop streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的map/reduce作业，这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如：$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/h

2013-12-17 20:58:10 1020

转载云计算（十九）- Hadoop Map/Reduce教程

Hadoop Map/Reduce教程目的先决条件概述输入与输出例子：WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入InputSpl

2013-12-16 22:19:11 1514

转载云计算（十八）- Hadoop2.2.0的Eclipse插件

Hadoop2.2.0还算比较新的，还没有配套的Eclipse插件，在Github上看到有高手编译的插件，就下来编译，可是速度奇慢，还好经过搜索找到了别人根据此Github项目编译生成的插件，拿来分享。此插件还不稳定。插件下载地址： 1.点击打开链接（原地址） 2.点击打开链接（百度云盘地址）另外附上博客地址：http://kangfoo

2013-12-16 13:56:41 2353

转载 Oracle（四）- Oracle的优化器的RBO和CBO方式

1、基于规则的优化方式(Rule-Based Optimization，简称为RBO) 优化器在分析SQL语句时,所遵循的是Oracle内部预定的一些规则，对数据是不敏感的。它只借助少量的信息来决定一个sql语句的执行计划，包括： 1）sql语句本身 2）sql中涉及到的table、view、index等的基本信息 3）本地数据库中数据字典中的

2013-12-16 12:36:01 656

转载 NIO-Selector

Selector（选择器）是Java NIO中能够检测一到多个NIO通道，并能够知晓通道是否为诸如读写事件做好准备的组件。这样，一个单独的线程可以管理多个channel，从而管理多个网络连接。下面是本文所涉及到的主题列表：为什么使用Selector?Selector的创建向Selector注册通道SelectionKey通过Selector选择通道wakeUp()close()完整

2013-12-16 12:05:05 477

原创云计算（十七）- Windows下编译Hadoop2.2源码并引入eclipse

环境：SVN或者小乌龟antmavenprotoc（http://download.csdn.net/detail/can007/5816063）VS2010第一步：从SVN下载code使用Eclipse插件或者小乌龟从https://svn.apache.org/repos/asf/hadoop/common/branches/branch-2.2.0，获得源码。

2013-12-15 17:58:19 5230 6

翻译云计算（十六）- HDFS配额指南（HDFS Quotas Guide）

综述HDFS允许管理员为使用的命名和每个个人的文件夹设置配额。命名配额和空间配额独立操作，但是这两种陪管理和实现是连接紧密的。命名配额命名配额是一个在这个文件夹下文件和文件夹的数目。如果超过限额那么文件和文件夹的创建会失败，重命名后命名配额仍然起作用。如果重命名操作违反配额的限制，那么重命名会失败。新创建的目录中没有配额的限制。Long.Max_Value表示最大限额。如果配额

2013-12-14 19:02:39 1496

翻译云计算（十五）- HDFS权限管理指南（HDFS Permissions Guide）

综述HDFS实现了一个类似POSIX模型的文件和文件夹权限管理模型。每一个文件盒文件夹都有一个所有者和一个组。文件或者文件夹可以通过权限区分是所有者还是组成员或是其他用户。对文件来说，r标示可以阅读文件，w标示可以写入文件，对于文件夹来说，r标示可以阅读其下的内容，w可以创建或者删除文件或文件夹，x标示进入其子节点。与POSIX 模型相比，没有可执行文件的概念，对于文件夹来说，

2013-12-14 09:02:24 3721

转载国务院办公厅关于2014年部分节假日安排的通知

国际在线报道：据中国政府网消息，经国务院批准，2014年元旦、春节、清明节、劳动节、端午节、中秋节和国庆节放假调休日期的具体安排公布。　　国务院办公厅关于2014年　　部分节假日安排的通知　　国办发明电〔2013〕28号　　各省、自治区、直辖市人民政府，国务院各部委、各直属机构：　　经国务院批准，现将2014年元旦、春节、清明节、劳动节、端午节、中秋节和国庆

2013-12-11 21:56:09 574

翻译云计算（十四）- Offline Image Viewer Guide

综述The Offline Image Viewer is a tool to dump the contents of hdfs fsimage files to human-readable formats in order to allow offline analysis and examination of an Hadoop cluster's namespace. The

2013-12-11 20:53:15 922

原创服务器硬件选择

参考网站：http://www.spec.org/jbb2005/results/jbb2005.html1 术语和定义1.1 信息系统由计算机、通信设备、处理设备、控制设备及其相关的配套设施构成，按照一定的应用目的和规则，对信息进行采集、加工、存储、传输、检索等处理的人机系统。1.2 软硬件平台指信息系统运行的环境，主要包括硬件（服务器、存储）和软件（操作系统、数据库

2013-12-10 22:46:27 10712

原创 Oracle（三） - Oracle关于Max和Min函数的几种写法比较

实验环境：SQL> conn /as sysdba已连接。SQL> grant select on dba_objects to scott;授权成功。SQL> conn scott/tiger;已连接。SQL> create table big_table as select * from dba_objects;表已创建。SQL> create inde

2013-12-10 22:31:23 13026

原创 Oracle（二）- 笛卡尔积造成的问题（一）

问题sql：select /*+rule */ a.unoin,a.name,b.product_id,c.partiname from pc_union_detail a,sp_product_all b,bf_dict c where a.union_id=b.union_id and c.dict_id between :1 and :2;现象：当 a ,b,c三个表的数据

2013-12-10 21:52:12 4808

翻译云计算（十三）- Offline Edits Viewer Guide

综述Offline Edits Viewer is a tool to parse the Edits log file. The current processors are mostly useful for conversion between different formats, including XML which is human readable and easier

2013-12-10 15:11:09 1334

原创敏捷开发中的Scrum流程

以下部分转载自：http://developer.51cto.com/art/200907/136850.htm任何人力流程都离不开人来执行，所以在讲解Scrum流程之前，有必要先把Scrum中的角色讲一下。一天，一头猪和一只鸡在路上散步，鸡看了一下猪说，“嗨，我们合伙开一家餐馆怎么样？”，猪回头看了一下鸡说，“好主意，那你准备给餐馆起什么名字呢？”，鸡想了想说“餐馆名字叫火腿

2013-12-10 09:30:11 3435

转载云计算（十二）-HDFS架构（ HDFS Architecture）

HDFS ArchitectureIntroductionThe Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed fi

2013-12-07 19:49:08 1751

翻译云计算（十一）- HDFS快照（HDFS Snapshots）

综述HDFS Snapshots are read-only point-in-time copies of the file system. Snapshots can be taken on a subtree of the file system or the entire file system. Some common use cases of snapshots are d

2013-12-07 19:47:07 2971

翻译云计算（十）- HDFS 联盟（HDFS Federation）

背景HDFS has two main layers:NamespaceConsists of directories, files and blocksIt supports all the namespace related file system operations such as create, delete, modify and list files and

2013-12-07 12:08:33 1240

翻译云计算（九）- 使用NFS实现HA（HDFS High Availability With NFS）

目的本指南概述HDFS的高可用性(HA)的特性,以及如何配置和管理HA HDFS集群,使用NFS实现NameNode共享存储本文假设读者有一个大致了解通用组件和一个HDFS集群中的节点类型。详情请参阅HDFS架构指南。注意：QJM或者共享存储本指南讨论如何配置使用HDFS HA使用NFS目录在活跃的和备份的NameNode之间分享edit日志，对于如何通过QJM

2013-12-04 22:18:45 2167

转载云计算（八）-hadoop HA----Quorum Journal 设计

本文是hadoop HA 方案Quorum Journal设计的翻译。原文参考这个链接中的附件：https://issues.apache.org/jira/browse/HDFS-30771 概述1.1 背景 HDFS-1623和相关的JIRAs加入了对HDFS NameNode高可用性的支持，但是依赖一个共享存储目录，在里面存储共享的edit log。这个

2013-12-02 18:08:37 1424 3

DK的专栏