大数据
不知道方向只知道前行
希望blog记录下我的点点滴滴,见证成长之路。
展开
-
hadoop2.7x高可用部署方案(+zookeeper)
hadoop高可用的部署,需要有2个namenode,一个是active的,一个是standby的,两个namenode需要有一个管理员来管理,来决定决定谁active,谁standby,如果处于active状态的的namenode坏了,立即启动standby状态的namenode。这个管理员就是zookeeper。主备NameNode之间通过一组JournalNode同步元数据信息,一条数据原创 2017-05-23 11:13:51 · 2599 阅读 · 1 评论 -
在Java Web项目中引入Mondrian多维分析框架
本文完全转载自:http://www.linuxidc.com/Linux/2014-09/107008.htm我也是初学,为了方便以后查看,所以转到自己博客上了。----------------------------------------------------------------------------------一,Mondrian简介Mondrian是一个开源项转载 2017-04-21 14:40:43 · 7347 阅读 · 1 评论 -
spark编译(官方文档翻译版)
原文地址:http://spark.apache.org/docs/latest/building-spark.html#building-a-runnable-distributionBuilding Apache SparkApache MavenThe Maven-based build is the build of reference for Apache Spark. Bu翻译 2017-09-26 20:50:15 · 695 阅读 · 0 评论 -
阻塞队列BlockingQueue以及它的两个重要实现类ArrayBlockingQueue和LinkedBlockingQueue
多线程环境中,通过队列可以很容易实现数据共享,比如经典的“生产者”和“消费者”模型中,通过队列可以很便利地实现两者之间的数据共享。假设我们有若干生产者线程,另外又有若干个消费者线程。如果生产者线程需要把准备好的数据共享给消费者线程,利用队列的方式来传递数据,就可以很方便地解决他们之间的数据共享问题。但如果生产者和消费者在某个时间段内,万一发生数据处理速度不匹配的情况呢?理想情况下,如果生产者产出数...原创 2018-11-28 11:22:26 · 259 阅读 · 0 评论 -
spark核心-RDD编程指导
rdd-programming-guide官网地址:http://spark.apache.org/docs/latest/rdd-programming-guide.html本文是根据官网原文翻译简化,是个人在学习过程中消化所得,感觉可以作为初识spark的一个指导文档,也是spark的核心东西。Linking with Spark(准备使用spark)spark是基于scala...翻译 2019-01-29 14:34:26 · 378 阅读 · 0 评论