2013年10月_快乐程序员

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

转载十道海量数据处理面试题与十个方法大总结

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。出处：http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据

2013-10-29 23:12:40 1074

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2013-10-29 23:05:25 945

转载 java中HashMap详解

本文转自：http://alex09.javaeye.com/blog/539545HashMap 和 HashSet 是 Java Collection Framework 的两个重要成员，其中 HashMap 是 Map 接口的常用实现类，HashSet 是 Set 接口的常用实现类。虽然 HashMap 和 HashSet 实现的接口规范不同，但它们底层的 Hash 存储机制完全一样

2013-10-29 18:35:50 858

转载 JDK中有关23个经典设计模式的示例

本文转自：http://stackoverflow.com/questions/1673841/examples-of-gof-design-patternsCreational patternsAbstract factory (recognizeable by creational methods returning an abstract/interface type

2013-10-29 18:31:47 1002

原创 Hadoop管理命令实践

Dfsamin是一个用来获取HDFS文件系统实时状态信息的多任务工作，具有对于HDFS文件系统管理操作的功能。在拥有超级用户权限的前提下，管理员可以在终端中通过Hadoop dfsadmin对于其进行功能方法的调用。主要命令如下：-report 主要用来获取文件系统的基本信息和统计信息-safemodeenter!leave!get!wait 安全模式的维护命令。安全模式是NameNode

2013-10-25 16:19:44 1087

转载 namenode崩溃的数据恢复测试

前言用second namenode 数据恢复测试。datanode由于采用2-3个备份，即使一台设备损坏，还是能自动恢复并找回全部数据。hadoop 1.0.3和0.20之前的版本，namenode存在单点问题。如果namenode损坏，会导致整个系统数据彻底丢失。所以second namenode就显得特别重要。本文主要探讨namenode损坏的数据恢复实践，包括配置文件，部署，nam

2013-10-22 17:59:15 2641

原创 NameNode不能启动报 NullPointerException

hadoop 1.02，hbase 0.92.系统所有node改了ip地址后，second name node过了一段时间退出，报如下错误：2012-12-17 17:09:05,646 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NullPointerException at org.apa

2013-10-22 17:33:43 2471

原创 Hadoop上线下线节点

添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上，启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@

2013-10-21 11:08:34 3285

原创论hadoop的balancer

其实很多人都知道hadoop自带一个hadoop balancer的功能,作用于让各个datanode之间的数据平衡.比如说node-A有100GB数据,占用磁盘99%空间;而node-B只有10GB数据占用磁盘10%空间~那么当我们以hdfs身份运行hadoop balance的时候,hadoop将会平衡这两个node之间的数据.至于多少叫做平衡,hadoop的d

2013-10-21 10:53:26 1228

转载 Hadoop实现Secondary Sort （二）

在hadoop中每个reduce的输入的key都是有序的，而value则是无序的。而且同一个job运行多次，由于map完成顺序不同，reduce收到的value顺序是不固定的。那如何才能实现reduce收到有序的value呢？这就需要Secondary Sort。Secondary Sort要解决的问题：reduce收到的value有序。这里举一个场景，来说明Secondary S

2013-10-18 18:11:09 946

原创 Hadoop实现Secondary Sort（一）

Hadoop的MapReduce模型支持基于key的排序，即在一次MapReduce之后，结果都是按照key的大小排序的。但是在很多应用情况下，我们需要对映射在一个key下的value集合进行排序，即“secondary sort”。在《hadoop the definate guide》的P227的“secondary sort”章节中，以为例，在map阶段按照year来分发t

2013-10-18 18:00:46 1221

原创设置hadoop Job允许map task失败的比例

hadoop任务分为map task和reduce task，当map task执行失败后会重试，超过重试次数（mapred.map.max.attempts指定，默认为4），整个job会失败，这是我们不想看到的。解决办法：hadoop提供配置参数“mapred.max.map.failures.percent”解决这个问题。如果一个Job有200个map task，该

2013-10-16 16:36:02 2710

转载 Hadoop实现Secondary Sort （三）

一、背景排序对于MR来说是个核心内容，如何做好排序十分的重要，这几天写了一些，总结一下，以供以后读阅。二、准备1、hadoop版本是0.20.22、输入的数据格式（这个很重要，看清楚格式），名称是secondary.txt：[java] view plaincopyabc 123 acb 124 cbd 523 abc

2013-10-15 10:34:58 995

转载 Map/Reduce中Join查询实现

一、背景早在8月份的时候，我就做了一些MR的Join查询，但是发现回北京之后，2个月不用，居然有点生疏，所以今天早上又花时间好好看了一下，顺便写下这个文档，以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoop0.20.2三、资料数据在做这个Join查询的时候，必然涉及数据，我这里设计了2张表，分别较data.txt和info.txt，字段之间以/t划分。d

2013-10-15 10:29:36 987

转载通过Hadoop的API管理Job

一、背景前些时候写了一篇这样的文档，由于当时的时间比较紧，且有些细节内容不太好细说，于是写的比较粗。之后也有些朋友发邮件给我，问我要详细的过程以及管理方式。于是，今天就像把这个内容细化，写在这里，供大家参考。二、环境简述Ø 操作系统Linux、JDK1.6Ø Hadoop 0.20.2Ø 开发工具选择eclipse 3.3.2（可配合使用hadoop的

2013-10-15 10:28:09 1338

转载 hadoop对于压缩文件的支持及算法优缺点

hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的，hadoop能够自动为我们将压缩的文件解压，而不用我们去关心。　　如果我们压缩的文件有相应压缩格式的扩展名(比如lzo，gz，bzip2等)，hadoop就会根据扩展名去选择解码器解压。压缩格式工具算法文件扩展名多文件可分割性DEFLATE无D

2013-10-15 09:29:28 1220

转载 hadoop，hive启用lzo压缩和创建lzo索引

启用lzo压缩对于小规模集群还是很有用的，压缩比率大概能达到原始日志大小的1/3。同时解压缩速度也比较快，Hadoop原生是支持gzip和bzip2压缩的，这两种压缩虽然压缩比率比lzo更大，但是在做map reduce解压缩的时候，慢的不能忍，所以通常不会用gzip或者bzip2。相同数据量，gzip的mr速度大概是lzo的1.5-2倍，而bzip2是lzo的3-4倍。不过lzo不比gz

2013-10-15 00:10:44 2615

转载使hadoop支持Splittable压缩lzo

在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间，不仅如此，lzo是基于block分块的，这样他就允许数据被分解成chunk，并行的被hadoop处理。这样的特点，就可以让lzo在hadoop上成为一种非常好用的压缩格式。lzo本身不是splitable的，所以当数据为text格式时，用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是seque

2013-10-15 00:00:08 1465

原创 hadoop之failed task和killed task

failed task可理解为自杀，也就是task本身出了问题而自杀；killed task可理解为是他杀，也就是jobtracker认为这个任务的执行是多余的，所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task，还经常好奇为什么有的时候task的失败不会影响到整个job的失败，而有的时候就会使整个job的失败，到底

2013-10-09 14:17:53 7777

转载 hadoop优化

Hadoop平台已经成为了大多数公司的分布式数据处理平台，随着数据规模的越来越大，对集群的压力也越来越大，集群的每个节点负担自然就会加重，而且集群内部的网络带宽有限，数据交换吞吐量也在面临考验，由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发，针对Hadoop Job优化提出了一些观点，不包含HDFS的优化。Job Tracker Related严格来说，

2013-10-09 10:42:29 1424

转载 Single Sign-on Using Kerberos in Java

Single Sign-on Using Kerberos in JavaMayank UpadhyayRam MartiOracle and/or its affiliates.{mayank.upadhyay, ram.marti} @sun.comABSTRACTA significant enhancement to the Java security ar

2013-10-08 15:13:31 2417

原创 hadoop dfsadmin -setSpaceQuota 设置目录配额的问题

通过该命令可以来限定某个hdfs目录的大小： hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen 但设定之后，put一个2000多字节的文件时候报错： Java代码 12/05/14 15:41:24 WARN hdfs.DFSClient:

2013-10-08 14:06:17 8830

oracle 内置sql函数

oracle 内置sql函数，内置函数详细说明，

2010-11-24

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明，值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程并发集合显示锁数据冲突死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

非常漂亮的个人主页模板

个人主页模板 jsp php div css

2010-03-21

HTTP协议详解学习servlet的必备资料

HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下： 1.支持客户/服务器模式。 2.简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。 3.灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。 5.无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

2009-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

快乐程序员的专栏

转载十道海量数据处理面试题与十个方法大总结

转载 hive数据倾斜总结

转载 java中HashMap详解

转载 JDK中有关23个经典设计模式的示例

原创 Hadoop管理命令实践

转载 namenode崩溃的数据恢复测试

原创 NameNode不能启动报 NullPointerException

原创 Hadoop上线下线节点

原创论hadoop的balancer

转载 Hadoop实现Secondary Sort （二）

原创 Hadoop实现Secondary Sort（一）

原创设置hadoop Job允许map task失败的比例

转载 Hadoop实现Secondary Sort （三）

转载 Map/Reduce中Join查询实现

转载通过Hadoop的API管理Job

转载 hadoop对于压缩文件的支持及算法优缺点

转载 hadoop，hive启用lzo压缩和创建lzo索引

转载使hadoop支持Splittable压缩lzo

原创 hadoop之failed task和killed task

转载 hadoop优化

转载 Single Sign-on Using Kerberos in Java

原创 hadoop dfsadmin -setSpaceQuota 设置目录配额的问题

oracle 内置sql函数

Oracle中ROWNUM的使用技巧

java 并发编程教程

spring aop 自定义切面示例

quartz_job_scheduling_framework_中文版

非常漂亮的个人主页模板

HTTP协议详解学习servlet的必备资料

UML类图各种关系详解

java 异常详解，java异常分类，创建自己的异常

servlet 返回 URL

空空如也

oracle 内置sql函数

Oracle中ROWNUM的使用技巧

java 并发编程教程

spring aop 自定义切面示例

quartz_job_scheduling_framework_中文版

非常漂亮的个人主页模板

HTTP协议详解 学习servlet的必备资料

UML类图各种关系详解

java 异常详解，java异常分类，创建自己的异常

servlet 返回 URL

空空如也

HTTP协议详解学习servlet的必备资料