- 博客(6)
- 资源 (29)
- 收藏
- 关注
原创 hive中join导致的数据倾斜问题排查
hive中大key导致的join数据倾斜问题1、场景如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。selectappid,count(*)from ( select md5imei,appid from ( select t1.md5im...
2017-08-10 22:55:22 26736 3
原创 spark读取kafka两种方式的区别
参考:http://spark.apache.org/docs/1.4.1/streaming-kafka-integration.html Receiver与Direct方法相比,后者具有以下优点。简化并行性无需创建多个输入Kafka流和联合它们。使用directStream,Spark Streaming将创建与要消费的Kafka分区一样多的RDD分区,这将从Kafka并行读取...
2017-08-23 22:31:19 2892
rpmbuild-demo工程
2015-01-21
Weka源代码详细分析系列
2012-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人