2017年03月_mllhxn

05月 04月 03月

转载在Spark上通过BulkLoad快速将海量数据导入Hbase

使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中，但是和Bulk加载相比效率低下，仅仅作为对比。import org.apache.spark._import org.apache.spark.rdd.NewHadoopRDDimport org.apache

2017-03-31 18:46:54 8172 5

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自Jason’s Blog，原文链接　http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前

2017-03-31 18:31:30 317

转载 Scala中的协变，逆变，上界，下界等

目录 [−]Java中的协变和逆变Scala的协变Scala的逆变下界lower bounds上界upper bounds综合协变，逆变，上界，下界View Bound Context Bound参考文档Scala中的协变逆变和Java中的协变逆变不一样，看起来更复杂。本文对Scala中的这些概念做一总结。首先看几个

2017-03-30 10:20:12 421

转载堆外内存(off-heap)、堆内内存(on-heap)

堆Heap是内存中动态分配对象存在的地方。如果使用new一个对象，它就被分配在堆内存上。这是相对于Stack，如果你有一个局部变量则它是位于Stack栈内存空间。一般情况下，Java中分配的非空对象都是由Java虚拟机的垃圾收集器管理的，也称为堆内内存（on-heap memory）。虚拟机会定期对垃圾内存进行回收，在某些特定的时间点，它会进行一次彻底的回收（full gc）。彻底

2017-03-29 18:22:44 948

转载 oracle递归查询（查询条件ID下得所有子集）

一、CREATE TABLE TBL_TEST 　　( 　　ID NUMBER, 　　NAME VARCHAR2(100 BYTE), 　　PID NUMBER DEFAULT 0 　　) 　　INSERT INTO TBL_TEST(ID,NAME,PID) VALUES(‘1’,’10’,’0’);

2017-03-02 21:12:40 2186

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测安装成功，CentOS_Ganglia安装.doc，CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行，win10出问题的话python path需要自己手配，而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip，用于oozie安装的插件，

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 在Spark上通过BulkLoad快速将海量数据导入Hbase

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

转载 Scala中的协变，逆变，上界，下界等

转载 堆外内存(off-heap)、堆内内存(on-heap)

转载 oracle递归查询（查询条件ID下得所有子集）

idea 使用快捷键.docx

CentOS_Ganglia安装.doc

matplotlib-1.4.0.win-amd64-py2.7.exe

numpy-MKL-1.8.0.win-amd64-py2.7.exe

KafkaOffsetMonitor-assembly-0.2.0

ext-2.2.zip

storm实时代码

storm 代码

空空如也

转载在Spark上通过BulkLoad快速将海量数据导入Hbase

转载堆外内存(off-heap)、堆内内存(on-heap)