2015年05月_tianbianlan

07月 06月 05月

原创 RDD初探

RDD初探 @20150422 RDD（resilient distributed dataset ）是Spark提出的一个创新性的概念，它提供了并行计算个阶段中数据的有效共享，弥补了MapReduce中的不足。与MapReduce单乏的Map和Reduce相比，在RDD上，Spark提供了丰富的操作，可以让程序开发人员利用RDD接口非常容易的编写出复杂的数据处理程序，先见见Sp

2015-05-27 16:59:06 456

原创 Sequoiadb1.10集群性能测试报告

目录 1. 测试产品 3 2. 测试环境 3 3. 测试数据 3 4. 测试场景 4 4.1. 单进程顺序写（开启事务，逐条提交） 4 4.2. 单进程随机写（开启事务，逐条提交） 5 4.3. 单进程顺序写 5 4.4. 单进程随机写 6 4.5. 单进程批量写（每次2000条记录） 6 4.6. 多进程写（2进程，非批量） 7 4.7. 多

2015-05-27 16:16:27 890

原创 Sequoiadb与Spark的对接步骤

最近完成了Sequoiadb与Spark的对接，为了便于之后查阅，记录如下 Sequoiadb 版本: 1.12 spark版本：1.3.1 Sequoiadb与spark对接步骤如下： 1. 配置hive-site.xml（非必须） hive.aux.jars.path file:///ocsdev/h

2015-05-27 16:12:17 622