2014年12月_快乐程序员

12月 11月 10月 09月 07月 05月 03月 02月 01月

原创 hadoop2.0的mapreduce作业classpath研究

hdfs raid从facebook移植过来很久了，包括hadoop0.20.203和hadoop2.4.0版本，但是最近才准备上线hadoop2.4.0版本的hdfs raid，上线前准备在好好测试测试，确保上线顺利，hdfs raid代码分成两部分，一部分是hdfs下面的代码，这部分代码上一次和其他patch一起已经上线，另外一部分是raid自己比较独立的代码，按照之前的计划，后一部分代码准备只部署在RaidNode节点和gateway上面，这样对集群的影响是最小的，不需要重启hadoop进程，在测试R

2014-12-25 13:14:46 6521 2

原创 hadoop2.4 支持snappy

我们hadoop2,4集群默认不支持snappy压缩，但是最近有业务方说他们的部分数据是snappy压缩的（这部分数据由另外一个集群提供给他们时就是snappy压缩格式的）想迁移到到我们集群上面来进行计算，但是直接运行时报错：

2014-12-22 23:14:07 6310

原创 mapreduce作业reduce被大量kill掉

之前有一段时间，我们的hadoop2.4集群压力非常大，导致提交的job出现大量的reduce被kill掉，相同的job运行时间比在hadoop0.20.203上面长了很多，这个问题其实是reduce 任务启动时机的问题，由于yarn中没有map slot和reduce slot的概念，且ResourceManager也不知道map task和reduce task之间的依赖关系，因此MRAppMaster自己需要设计资源申请策略以防止因reduce task过早启动照成资源利用率低下和map task因分

2014-12-15 23:22:17 5980

原创 hdfs增加ns之后，重启DN报clusterId不匹配错误

在测试环境准备测试FastCopy，因为之前只有一个NS，准备增加一个NS也便于测试，一切都准备妥当之后，重启DN，但是DN死活连接不上新的NN，报以下错误：

2014-12-09 22:23:58 2931

原创 reduce端缓存数据过多出现FGC，导致reduce生成的数据无法写到hdfs

reduce端缓存数据过多出现FGC，导致reduce生成的数据无法写到hdfs：搜索推荐有一个job，1000多个map，200个reduce，运行到最后只剩一个reduce（10.39.6.130上）的时候，出现以下异常，导致job失败。

2014-12-04 17:28:01 6643

原创 mac 安装jdk1.7出现Missing tools.jar解决方案

$ cd /Library/Java/JavaVirtualMachines/jdk1.7.0_17.jdk/Contents/Home/$ sudo mkdir Classes$ sudo ln -s ../jre/lib/rt.jar classes.jar

2014-12-03 22:52:51 3159

原创 linux中shell变量$#,$@,$0,$1,$2的含义解释:

linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID（ProcessID） $! Shell最后运行的后台Process的PID $? 最后运行的命令的结束代码（返回值） $- 使用Set命令设定的Flag一览 $* 所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出

2014-12-27 23:27:27 677

转载 hadoop2.0的DataNode与NameNode交互机制相关代码分析

HDFS Federation是为解决HDFS单点故障而提出的NameNode水平扩展方案，该方案允许HDFS创建多个Namespace以提高集群的扩展性和隔离性。在Federation中新增了block-pool的概念，block-pool就是属于单个Namespace的一组block,每个DataNode为所有的block-pool存储block，可以理解block-pool是一个重新将blo

2014-12-18 22:30:46 1864

转载 Hadoop 2.0 Datanode

转载地址：http://dj1211.com/?cat=10&paged=2Hadoop 2.0 Datanode 更加细分，将结构分为两个大部分。DataNode相当于一个包装转发器，将请求发送给相应的处理单元。DataNode 分为以下两部分：1、与NameNode汇报的逻辑，block report，heartbeat2、底层与文件

2014-12-17 15:49:47 821

转载 HDFS Protocol修改流程

转载地址：http://dj1211.com/?p=51#more-51相对于1.x版本的Hadoop，2.x版本的Hadoop采用了Protocol Buffer作为序列化反序列化工具，以及RPC通讯工具。这样当我们对Hadoop源码进行修改之前，就需要了解Hadoop 2.x的代码结构和修改方法。几个结构，以DatanodeProtocol举列子： Datan

2014-12-17 15:24:01 2113

转载 Hadoop RPC

转载地址：http://dj1211.com/?p=102#more-102一、说明 Hadoop无论是1.x还是2.x机器不同角色之间的通信全部是通过RPC完成的，RPC底层都是通过Dynamic Proxy完成，无外乎就是TCP连接，验证协议，提取字段等等。所不同的是1.x采用的是plain java自己完成序列化与反序列化，而2.x底层采用的是PB序列化与反序列化，造成

2014-12-17 15:18:59 1068

转载 Linux-free命令显示各值的具体含义

转载地址：http://blog.sina.com.cn/s/blog_5f1bf8510100cwig.htmlfree 命令相对于top 提供了更简洁的查看系统内存使用情况：# free　　 total used free shared buffers cached　　Mem: 255988 231704 24284

2014-12-10 22:23:57 6680

转载 HDFS性能压测工具浅析

转载地址：http://www.educity.cn/se/619890.html引言　　Hadoop生态圈的基石有两个，一个是HDFS文件系统，一个是MR编程框架。第一弹中提到应用MR编程框架实现大规模多机联合负载压测场景的方案，则突出了MR的能力，实际上HDFS作为这一切的基础，所起的作用是不容忽视的。　　HDFS分布式文件系统与一般的文件系统，从本质构成上来说并没有太

2014-12-10 12:26:35 9577

转载用“逐步排除”的方法定位Java服务线上“系统性”故障

转载地址：http://techblog.youdao.com/?p=961一、摘要由于硬件问题、系统资源紧缺或者程序本身的BUG，Java服务在线上不可避免地会出现一些“系统性”故障，比如：服务性能明显下降、部分（或所有）接口超时或卡死等。其中部分故障隐藏颇深，对运维和开发造成长期困扰。笔者根据自己的学习和实践，总结出一套行之有效的“逐步排除”的方法，来快速定位Java服务线

2014-12-06 21:18:39 1486

oracle 内置sql函数

oracle 内置sql函数，内置函数详细说明，

2010-11-24

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明，值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程并发集合显示锁数据冲突死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

非常漂亮的个人主页模板

个人主页模板 jsp php div css

2010-03-21

HTTP协议详解学习servlet的必备资料

HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下： 1.支持客户/服务器模式。 2.简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。 3.灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。 5.无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

2009-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

快乐程序员的专栏

原创 hadoop2.0的mapreduce作业classpath研究

原创 hadoop2.4 支持snappy

原创 mapreduce作业reduce被大量kill掉

原创 hdfs增加ns之后，重启DN报clusterId不匹配错误

原创 reduce端缓存数据过多出现FGC，导致reduce生成的数据无法写到hdfs

原创 mac 安装jdk1.7出现Missing tools.jar解决方案

原创 linux中shell变量$#,$@,$0,$1,$2的含义解释:

转载 hadoop2.0的DataNode与NameNode交互机制相关代码分析

转载 Hadoop 2.0 Datanode

转载 HDFS Protocol修改流程

转载 Hadoop RPC

转载 Linux-free命令显示各值的具体含义

转载 HDFS性能压测工具浅析

转载用“逐步排除”的方法定位Java服务线上“系统性”故障

oracle 内置sql函数

Oracle中ROWNUM的使用技巧

java 并发编程教程

spring aop 自定义切面示例

quartz_job_scheduling_framework_中文版

非常漂亮的个人主页模板

HTTP协议详解学习servlet的必备资料

UML类图各种关系详解

java 异常详解，java异常分类，创建自己的异常

servlet 返回 URL

空空如也

oracle 内置sql函数

Oracle中ROWNUM的使用技巧

java 并发编程教程

spring aop 自定义切面示例

quartz_job_scheduling_framework_中文版

非常漂亮的个人主页模板

HTTP协议详解 学习servlet的必备资料

UML类图各种关系详解

java 异常详解，java异常分类，创建自己的异常

servlet 返回 URL

空空如也

HTTP协议详解学习servlet的必备资料