白乔专栏

资深感性程序员,大数据爱好者,中国科学院博士

HDFS之SequenceFile和MapFile

http://blog.csdn.net/javaman_chen/article/details/7241087 Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个bl...

2014-11-27 22:58:34

阅读数 945

评论数 0

收藏2个mongodb connector网址

https://github.com/plaa/mongo-spark https://github.com/mongodb/mongo-hadoop http://codeforhire.com/2014/02/18/using-spark-with-mongodb/

2014-11-27 22:51:15

阅读数 1115

评论数 0

Spark:用Scala和Java实现WordCount

http://www.cnblogs.com/byrhuangqiang/p/4017725.html 为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。 用Sca...

2014-11-27 22:37:25

阅读数 92744

评论数 3

理解Java的引用对象

http://blog.sina.com.cn/s/blog_8417aea80100skwx.html

2014-11-25 16:31:18

阅读数 1909

评论数 0

hadoop mapreduce 优化

http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html

2014-11-25 09:49:29

阅读数 774

评论数 0

Pig与Hive的区别

http://myeyeofjava.iteye.com/blog/1601792 Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数...

2014-11-25 08:53:34

阅读数 2753

评论数 0

Hadoop MapReduceV2(Yarn) 框架简介

http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

2014-11-24 22:58:41

阅读数 1052

评论数 0

Spark技术内幕:Client,Master和Worker 通信源码解析

http://blog.csdn.net/anzhsoft/article/details/30802603

2014-11-24 22:56:58

阅读数 1384

评论数 0

Spark技术内幕:Stage划分及提交源码分析

http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache.spark.rdd.RDD#countorg.apache.spark.S...

2014-11-24 22:55:19

阅读数 6255

评论数 0

无责任比较thrift vs protocol buffers

http://blog.csdn.net/socoolfj/article/details/3855007 最近工作需要保存一些结构化的数据。常规的思路,自然是选择xml。定义一个schema,然后再找个利落点的XML库(觉得tinyxml/tinyxml++就挺不错的)就算问题解决。这...

2014-11-24 22:02:23

阅读数 2615

评论数 0

理解hadoop的Map-Reduce数据流(data flow)

http://blog.csdn.net/yclzh0522/article/details/6859778 Map-Reduce的处理过程主要涉及以下四个部分: 客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Ja...

2014-11-24 21:47:26

阅读数 1418

评论数 0

hadoop-2.5安装与配置

安装之前准备4台机器:bluejoe0,

2014-11-24 15:54:07

阅读数 5269

评论数 1

linux下查看本地程序占用的端口

netstat -apn 结合ps

2014-11-24 15:33:36

阅读数 1017

评论数 0

理解Spark的RDD

RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。 RDD是只读的,不可...

2014-11-23 20:57:54

阅读数 36530

评论数 1

spark1.1.0下使用SparkSQL

spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407 安装了spark之后,key

2014-11-23 18:14:30

阅读数 5011

评论数 0

hadoop的mapreduce过程

http://www.cnblogs.com/sharpxiajun/p/3151395.html

2014-11-23 15:14:08

阅读数 981

评论数 0

SSH免密码登录设置

我们使用ssh-keygen在ServerA上生成private和public密钥,将生成的public密钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。

2014-11-22 23:34:13

阅读数 901

评论数 0

最新版spark1.1.0集群安装配置

和分布式文件系统和NoSQL数据库相比而言,spark集群的安装配置还算是比较简单的

2014-11-22 23:01:16

阅读数 4343

评论数 1

同步/异步与阻塞/非阻塞的区别

http://blog.csdn.net/msda/article/details/5766917

2014-11-22 17:45:16

阅读数 887

评论数 1

java.util.concurrent 多线程框架

http://daoger.iteye.com/blog/142485 JDK5中的一个亮点就是将Doug Lea的并发库引入到Java标准库中。Doug Lea确实是一个牛人,能教书,能出书,能编码,不过这在国外还是比较普遍的,而国内的教授们就相差太远了。  一般的服务器都需要线程池,比...

2014-11-22 17:41:32

阅读数 789

评论数 0

提示
确定要删除当前文章?
取消 删除