- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 SparkContext的parallelize的参数
在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,
2014-12-06 17:32:27 20279
转载 Java Random类
Random类:专门用于生成一个伪随机数,它有两个构造器:一个构造器使用默认的种子,另一个构造器需要程序员显式传入一个long型整数的种子。public static void main(String[] args) { Random random=new Random(); System.out.println(random.nextBoolean());//生成布尔型的伪随机数
2014-12-04 16:25:31 621
转载 Hadoop Shell命令
转Hadoop官网的shell命令http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.htmlFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,sc
2014-12-02 22:51:07 398
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人