2015年03月_快乐程序员

03月 02月 01月

原创一次因为数据问题引起的reduce被卡住streaming作业问题排查

广告产品技术部有一个作业总是卡在某个reduce上，运行了好几个小时也运行不完，经过他们初步排查找不着问题原因，发邮件让我帮看看，我看了一下这个streaming作业是用python实现的，而且听他们描述，3月17之前该作业是没问题的，以下是可能存在问题的地方：

2015-03-21 11:27:05 3715

转载 Yarn shuffle OOM错误分析及解决

前两周和同事一起分析了一下yarn shuffle oom的问题，最后他写了一个blog，我这里就不重复写了，把他的转载过来，他的blog写得都很有深度，推荐大家去看看。原文地址：http://dj1211.com/?p=358最近集群中一些任务经常在reduce端跑出Shuffle OOM的错误，具体错误如下：2015-03-09 16:19:13,646 W

2015-03-19 13:27:08 3675 1

原创 hive中使用正则表达式不当导致运行奇慢无比

业务保障部有一个需求，需要用hive实时计算上一小时的数据，比如现在是12点，我需要计算11点的数据，而且必须在1小时之后运行出来，但是他们用hive实现的时候发现就单个map任务运行都超过了1小时，根本没法满足需求，后来打电话让我帮忙优化一下，以下是优化过程：

2015-03-19 13:20:42 4896 1

转载 Spark RDD API详解(一) Map和Reduce

转载地址：https://www.zybuluo.com/jewes/note/35032RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无

2015-03-02 17:19:51 1237

转载理解Spark的核心RDD

转载地址：http://www.infoq.com/cn/articles/spark-core-rdd与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的

2015-03-02 14:38:58 989

转载 Spark Streaming容错的改进和零数据丢失

转载地址：http://www.csdn.net/article/2015-03-03/2824081 实时流处理系统必须要能在24/7时间内工作，因此它需要具备从各种系统故障中恢复过来的能力。最开始，Spark Streaming就支持从driver和worker故障恢复的能力。然而有些数据源的输入可能在故障恢复以后丢失数据。在Spark 1.2版本中，我们已经在Spark

2015-03-04 18:31:38 1158

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明，值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程并发集合显示锁数据冲突死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下： 1.支持客户/服务器模式。 2.简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。 3.灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。 5.无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

2009-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

快乐程序员的专栏

原创一次因为数据问题引起的reduce被卡住streaming作业问题排查

转载 Yarn shuffle OOM错误分析及解决

原创 hive中使用正则表达式不当导致运行奇慢无比

转载 Spark RDD API详解(一) Map和Reduce

转载理解Spark的核心RDD

转载 Spark Streaming容错的改进和零数据丢失

oracle 内置sql函数

Oracle中ROWNUM的使用技巧

java 并发编程教程

spring aop 自定义切面示例

quartz_job_scheduling_framework_中文版

非常漂亮的个人主页模板

HTTP协议详解学习servlet的必备资料

UML类图各种关系详解

java 异常详解，java异常分类，创建自己的异常

servlet 返回 URL

空空如也

原创 一次因为数据问题引起的reduce被卡住streaming作业问题排查

转载 Yarn shuffle OOM错误分析及解决

原创 hive中使用正则表达式不当导致运行奇慢无比

转载 Spark RDD API详解(一) Map和Reduce

转载 理解Spark的核心RDD

转载 Spark Streaming容错的改进和零数据丢失

oracle 内置sql函数

Oracle中ROWNUM的使用技巧

java 并发编程教程

spring aop 自定义切面示例

quartz_job_scheduling_framework_中文版

非常漂亮的个人主页模板

HTTP协议详解 学习servlet的必备资料

UML类图各种关系详解

java 异常详解，java异常分类，创建自己的异常

servlet 返回 URL

空空如也

原创一次因为数据问题引起的reduce被卡住streaming作业问题排查

转载理解Spark的核心RDD

HTTP协议详解学习servlet的必备资料