白乔专栏

资深感性程序员,大数据爱好者,中国科学院博士

Hive over HBase和Hive over HDFS性能比较分析

http://superlxw1234.iteye.com/blog/2008274环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0...

2015-08-20 20:56:40

阅读数 3444

评论数 1

hive与hbase集成

http://blog.csdn.net/vah101/article/details/22597341这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表,进行读(select)、写(insert)操作。它甚至可以基于join、union操作对hbase表和hi...

2015-08-20 20:49:42

阅读数 1085

评论数 0

基于spark实现表的join操作

1. 自连接假设存在如下文件:[root@bluejoe0 ~]# cat categories.csv 1,生活用品,0 2,数码用品,1 3,手机,2 4,华为Mate7,3每一行的格式为:类别ID,类别名称,父类ID现在欲输出每个类别的父类别的名称,类似于SQL的自连接,注意到join的外...

2015-08-05 23:39:17

阅读数 13171

评论数 1

关于IO的一些数字

http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/people/jeff/stanford-295-talk.pdf

2015-08-05 22:44:11

阅读数 810

评论数 0

scala的REPL shell的调用

最近突然对spark的spark-shell发生了兴趣 它是如何启动scala的REPL的,并且在此前写入了常用的环境变量的呢? 通过查看spark的源码,找到了SparkILoop.scalaimport scala.tools.nsc.interpreter.{JPrintWriter, ...

2015-08-02 21:51:57

阅读数 3479

评论数 0

提示
确定要删除当前文章?
取消 删除