- 博客(4)
- 资源 (7)
- 收藏
- 关注
原创 hive1.1版本中mapjoin踩到的一个坑
可以通过设置hive.auto.convert.join.noconditionaltask.size这个参数来将一个小表变成hashtable然后作为分布式缓存文件分发到各个worker节点,进而实现Map side join。map side join有许多优势,顾名思义就是没有了reduce的过程,这样可以用来解决join的时候数据倾斜的问题。 一般应用在大表和小表join的场景下,这样我
2016-07-21 14:22:15 3257
原创 scala 借贷模式(loan pattern)通用实现
import scala.language.reflectiveCalls import util.control.Exception._ import scala.concurrent.{ ExecutionContext, Future } object LoanPattern extends LoanPattern /** * Loan pattern implementation
2016-07-19 14:38:20 1033
转载 hive压缩之小文件合并
转自:http://m.blog.csdn.net/article/details?id=43084309 Hive压缩之二 小文件合并 调研背景 当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发
2016-07-15 09:41:29 1641
原创 spark streaming 同时处理两个不同kafka集群的数据
如题,总是不那么完美,要处理的数据在两个不同的kafka集群里面,日子得过,问题也得解决,我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理,代码如下: package com.kingnet import java.util import org.apache.spark.SparkConf import org.a
2016-07-13 15:16:32 11547 2
delphi写的DLL子窗体生成为主程序的TabSheet
2008-09-26
Dephi写的用IdUDP实现的P2P聊天软件
2008-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人