自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

快乐程序员的专栏

专注于hadoop运维,大数据处理,即席查询,hadoop生态圈组件研究

  • 博客(6)
  • 资源 (10)
  • 收藏
  • 关注

原创 一次因为数据问题引起的reduce被卡住streaming作业问题排查

广告产品技术部有一个作业总是卡在某个reduce上,运行了好几个小时也运行不完,经过他们初步排查找不着问题原因,发邮件让我帮看看,我看了一下这个streaming作业是用python实现的,而且听他们描述,3月17之前该作业是没问题的,以下是可能存在问题的地方:

2015-03-21 11:27:05 3715

转载 Yarn shuffle OOM错误分析及解决

前两周和同事一起分析了一下yarn shuffle oom的问题,最后他写了一个blog,我这里就不重复写了,把他的转载过来,他的blog写得都很有深度,推荐大家去看看。原文地址:http://dj1211.com/?p=358最近集群中一些任务经常在reduce端跑出Shuffle OOM的错误,具体错误如下:2015-03-09 16:19:13,646 W

2015-03-19 13:27:08 3675 1

原创 hive中使用正则表达式不当导致运行奇慢无比

业务保障部有一个需求,需要用hive实时计算上一小时的数据,比如现在是12点,我需要计算11点的数据,而且必须在1小时之后运行出来,但是他们用hive实现的时候发现就单个map任务运行都超过了1小时,根本没法满足需求,后来打电话让我帮忙优化一下,以下是优化过程:

2015-03-19 13:20:42 4895 1

转载 Spark RDD API详解(一) Map和Reduce

转载地址:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无

2015-03-02 17:19:51 1237

转载 理解Spark的核心RDD

转载地址:http://www.infoq.com/cn/articles/spark-core-rdd与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的

2015-03-02 14:38:58 989

转载 Spark Streaming容错的改进和零数据丢失

转载地址:http://www.csdn.net/article/2015-03-03/2824081       实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver和worker故障恢复的能力。然而有些数据源的输入可能在故障恢复以后丢失数据。在Spark 1.2版本中,我们已经在Spark 

2015-03-04 18:31:38 1158

oracle 内置sql函数

oracle 内置sql函数 ,内置函数详细说明,

2010-11-24

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明,值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程 并发集合 显示锁 数据冲突 死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

非常漂亮的个人主页模板

个人主页模板 jsp php div css

2010-03-21

HTTP协议详解 学习servlet的必备资料

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下: 1.支持客户/服务器模式。 2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。 3.灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。 5.无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

2009-10-25

UML类图各种关系详解

UML类图各种关系详解 包括 继承 实现 聚合 等等 一张图道出类之间的各种关系 直观容易

2009-09-09

java 异常详解,java异常分类,创建自己的异常

java 异常详解,java异常分类,创建自己的异常

2009-08-18

servlet 返回 URL

Servlet 中处理 URL,获取表单内以及URL上所有的参数

2009-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除