spark常用RDD算子 - parallelize,makeRDD,textFile

parallelize

调用SparkContext 或 JavaSparkContext的 parallelize(),将一个存在的集合,变成一个RDD或JavaRDD
代码示例:
参数1:集合
参数2:分区的个数
JavaRDD<Integer> parallelize = javaSparkContext.parallelize(Arrays.asList(1, 2, 3, 4, 5,6,7,8,9),3);


 

makeRDD

只有scala版本的才有makeRDD  ,如 sc.makeRDD(List("shenzhen", "is a beautiful city"))

 

textFile

调用SparkContext.textFile()方法,从外部存储中读取数据来创建 RDD  ,注意:可以读某个目录,或文件
示例1
JavaRDD<String> stringJavaRDD_1 = javaSparkContext.textFile ("E:\\wenjian\\txtFile", 3);

示例2,正则表达式的方式,读取多个文件
JavaRDD<String> stringJavaRDD_3 = javaSparkContext.textFile ("file:///E:/wenjian/txtFile2/*.txt", 3);

示例3,读取多个目录,用,号分隔
String path2="file:///E:/wenjian/txtFile,file:///E:/wenjian/txtFile2"; 
JavaRDD<String> stringJavaRDD = javaSparkContext.textFile(path2);

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值