RDD to DataFrame

将 RDD 转化成 DF,有两种方式:

  1. 利用 schema 来从 RDD<String>\,转化为 RDD<Row>\,再转化成 DataFrame。
  2. 构造 bean 对象来从 RDD 转化成 Dataset,再转化成 DataFrame。

以 schema 来构建 DataFrame

//1. 将 JavaRDD<String> 转换为 JavaRDD<Row>
JavaRDD<Row> inRDD = jsc.textFile("in/1.txt").map(new Function<String, Row>() {
    @Override
    public Row call(String s) throws Exception {
        String s1 = s.split(",")[0];
        String s2 = s.split(",")[1];
        return RowFactory.create(Integer.parseInt(s1), s2);
    }
});

//2. Schema 的处理。
List<StructField> structFilelds = new ArrayList<StructField>();
structFilelds.add(DataTypes.createStructField("score", DataTypes.IntegerType, true));
structFilelds.add(DataTypes.createStructField("name", DataTypes.StringType, true));

StructType structType = DataTypes.createStructType(structFilelds);

//3. 通过 Schema 和 Java<Row> 转化为 DF
Dataset<Row> df = spark.createDataFrame(inRDD, structType);

df.show();

先构建 bean 类来生成 DataFrame

下面这种方式会导致列名不是按照 bean 的顺序出现,而是以字典序出现。

 //1. 将 JavaRDD<String> 转换为 JavaRDD<Object>
 JavaRDD<Person> inRDD = jsc.textFile("in/1.txt").map(new Function<String, Person>() {
     @Override
     public Person call(String s) throws Exception {
         Person person = new Person();
         String s1 = s.split(",")[0];
         String s2 = s.split(",")[1];

         person.setName(s2);
         person.setScore(Integer.valueOf(s1));

         return person;
     }
 });

 //2. 通过 JavaBean 和 JavaRDD<Object> 转化为 DF
 Dataset<Row> df = spark.createDataFrame(inRDD, Person.class).toDF();

 df.show();
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值