2016年07月_xiao_jun_0820

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 hive1.1版本中mapjoin踩到的一个坑

可以通过设置hive.auto.convert.join.noconditionaltask.size这个参数来将一个小表变成hashtable然后作为分布式缓存文件分发到各个worker节点，进而实现Map side join。map side join有许多优势，顾名思义就是没有了reduce的过程，这样可以用来解决join的时候数据倾斜的问题。一般应用在大表和小表join的场景下，这样我

2016-07-21 14:22:15 3257

原创 scala 借贷模式(loan pattern)通用实现

import scala.language.reflectiveCalls import util.control.Exception._ import scala.concurrent.{ ExecutionContext, Future } object LoanPattern extends LoanPattern /** * Loan pattern implementation

2016-07-19 14:38:20 1033

转载 hive压缩之小文件合并

转自：http://m.blog.csdn.net/article/details?id=43084309 Hive压缩之二小文件合并调研背景当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发

2016-07-15 09:41:29 1641

原创 spark streaming 同时处理两个不同kafka集群的数据

如题，总是不那么完美，要处理的数据在两个不同的kafka集群里面，日子得过，问题也得解决，我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理，代码如下： package com.kingnet import java.util import org.apache.spark.SparkConf import org.a

2016-07-13 15:16:32 11547 2