- 博客(5)
- 资源 (9)
- 收藏
- 关注
转载 在Spark上通过BulkLoad快速将海量数据导入Hbase
使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,但是和Bulk加载相比效率低下,仅仅作为对比。import org.apache.spark._import org.apache.spark.rdd.NewHadoopRDDimport org.apache
2017-03-31 18:46:54 8172 5
转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
原创文章,转载请务必将下面这段话置于文章开头处。本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前
2017-03-31 18:31:30 317
转载 Scala中的协变,逆变,上界,下界等
目录 [−]Java中的协变和逆变Scala的协变Scala的逆变下界lower bounds上界upper bounds综合协变,逆变,上界,下界View Bound Context Bound参考文档Scala中的协变逆变和Java中的协变逆变不一样,看起来更复杂。 本文对Scala中的这些概念做一总结。首先看几个
2017-03-30 10:20:12 421
转载 堆外内存(off-heap)、堆内内存(on-heap)
堆Heap是内存中动态分配对象存在的地方。如果使用new一个对象,它就被分配在堆内存上。这是相对于Stack,如果你有一个局部变量则它是位于Stack栈内存空间。一般情况下,Java中分配的非空对象都是由Java虚拟机的垃圾收集器管理的,也称为堆内内存(on-heap memory)。虚拟机会定期对垃圾内存进行回收,在某些特定的时间点,它会进行一次彻底的回收(full gc)。彻底
2017-03-29 18:22:44 948
转载 oracle递归查询(查询条件ID下得所有子集)
一、CREATE TABLE TBL_TEST ( ID NUMBER, NAME VARCHAR2(100 BYTE), PID NUMBER DEFAULT 0 ) INSERT INTO TBL_TEST(ID,NAME,PID) VALUES(‘1’,’10’,’0’);
2017-03-02 21:12:40 2186
KafkaOffsetMonitor-assembly-0.2.0
2016-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人