spark RDD算子 parallelize,makeRDD,textFile

parallelize

将一个存在的集合,变成一个RDD。这种方式试用于学习spark和做一些spark的测试

    第一个参数一是一个 Seq集合
    第二个参数分区数

	var array = List(1, 2, 3, 4, 5, 6, 7, 8)
	var rdd = sc.parallelize(array,3)

    1
    2
  • makeRDD

    只有scala版本的才有makeRDD ,跟parallelize类似。

      var array = List(1, 2, 3, 4, 5, 6, 7, 8)
      var rdd = sc.makeRDD(array)
    
      1
      2
    
  • textFile

    从外部存储中读取数据来创建 RDD ,如读取本地D:\log\system.log。

      var lines = sc.textFile("file:\\D:\log\system.log") 
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值