spark中RDD、DataFrame创建及互相转换

本文介绍了如何在Spark中使用Scala创建和转换RDD与DataFrame。通过`parallelize`和`makeRDD`从Seq集合创建RDD,利用`textFile`从外部存储读取数据。同时,展示了如何将RDD转换为DataFrame,可以使用`toDF`和`createDataFrame`方法,也可以直接从文件创建DataFrame。
摘要由CSDN通过智能技术生成
1. RDD创建方式
  • parallelize 从一个Seq集合创建RDD。
例如: var rdd = sc. parallelize(1 to 10)
  • makeRDD 这种用法和parallelize完全相同
例如: var collect = Seq((1 to 10,Seq("slave007.lxw1234.com","slave002.lxw1234.com")),  
(11 to 15,Seq("slave013.lxw1234.com","slave015.lxw1234.com")))
var rdd = sc. makeRDD(collect) 
  • textFile 从外部存储创建RDD
例如: var rdd = sc. textFile("hdfs:///tmp/lxw1234/1.txt")  //hdfs上获取
 var rdd = sc. textFile("file:///etc/hadoop/conf/core-site.xml")  //本地文件系统获取

2. Dataframe创建方式
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值