第60课：使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

最新推荐文章于 2021-10-20 17:09:29 发布

zerone-f

最新推荐文章于 2021-10-20 17:09:29 发布

阅读量292

点赞数

分类专栏：大数据 SparkSQL 文章标签： RDD DataFrame 动态转换

本文链接：https://blog.csdn.net/someby/article/details/83479408

版权

大数据同时被 2 个专栏收录

196 篇文章 4 订阅

订阅专栏

SparkSQL

33 篇文章 0 订阅

订阅专栏

内容：

   1.作业特别说明
   2.使用Java实战RDD与DataFrame转换
   3.使用Scala实战RDD与DataFrame转换

一、作业特别说明

1.列的个数，以及每一列的具体的信息只有在运行的时候才会知道：
2.生产环境时候，常用的方式：动态转化，
第一：生产环境的时候，一开始不容易确定每一条记录的不同的列的元数据信息，以及这条数据到底有多少列。
第二：生产环境业务容易发生变化，数据类型容易发生变化，这样就能够应对变化的业务。可以应对来自数据库或是其他的文件，这样就不需要改动自己的代码了。

二、使用Java实战RDD与DataFrame转换

   1.动态构造有时候有些麻烦：spark开发了一个API就是DataSet，DataSet可以基于RDD，RDD里面有类型。他可以基于这种类型。
   2.sparkSQL+DataFrame+DataSet:三者都相当重要，在2.0的时候编码会使用大量使用DataSet。DataSet上可以直接查询。Spark的核心RDD+DataFrame+DataSet:最终会形成三足鼎立。
   3.RDD实际是服务SparkSQL的。DataSet是想要用所有的子框架都用DataSet进行计算。DataSet的底层是钨丝计划。这就让天然的性能优势体现出来。官方建议使用hiveContext，在功能上比SQLContext的更好更高级的功能。
   4.代码示例：
a）person.txt

1,Spark,7
2,Hadoop,11
3,Flink,5

b）Person.class

package SparkSQL;

import java.io.Serializable;

/**
 * FileName: Person
 * Author:   hadoop
 * Email:    3165845957@qq.com
 * Date:     18-10-28 下午4:27
 * Description:
 */
public class Person implements Serializable {

        private int id;
        private String name;
        private int age;

        public int getId() {
            return id;
        }

        public void setId(int id) {
            this.id = id;
        }

        public String getName() {
            return name;
        }

        public void setName(String name) {
            this.name = name;
        }

        public int getAge() {
            return age;
        }

        public void setAge(int age) {
            this.age = age;
        }

        @Override
        public String toString() {
            return "Person{" + "id=" + id + ", name='" + name + '\'' + ", age=" + age + '}';
        }

}

c）RDDToDataFrameByProgramatically.class

package SparkSQL;


import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;


import java.util.ArrayList;
import java.util.List;

/**
 * FileName: RDDToDataFrameByProgramatically
 * Author:   hadoop
 * Email:    3165845957@qq.com
 * Date:     18-10-28 下午8:00
 * Description:
 */
public class RDDToDataFrameByProgramatically {
    public static void main(String[] args){
        //创建SparkConf用于读取系统信息并设置运用程序的名称
        SparkConf conf  = new SparkConf().setAppName("RDDToDataFrameByReflection").setMaster("spark://Master:7077");
        //创建JavaSparkContext对象实例作为整个Driver的核心基石
        JavaSparkContext sc = new JavaSparkContext(conf);
        //设置输出log的等级,可以设置INFO,WARN,ERROR
        sc.setLogLevel("ERROR");
        //创建SQLContext上下文对象，用于SqL的分析
        SQLContext sqlContext = new SQLContext(sc);
        //创建RDD，读取textFile
        JavaRDD<String> lines = sc.textFile("/home/hadoop/person.txt");
        /**
         * 第一步：在RDD的基础上创建类型为Row的RDD
         */
        JavaRDD<Row> personRDD = lines.map(new Function<String, Row>() {
            @Override
            public Row call(String line) throws Exception {
                String[] splited = line.split(",");
                return RowFactory.create(Integer.valueOf(splited[0]),splited[1], Integer.valueOf(splited[2]));
            }
        });
        /**
         * 第二部：动态构造DataFrame的元数据，一般而言，有多少列以及每列的具体类型可能来自于json文件，也可能来自于数据库
         */
        List<StructField> structFields = new ArrayList<StructField>();
        structFields.add(DataTypes.createStructField("id", DataTypes.IntegerType,true));
        structFields.add(DataTypes.createStructField("name", DataTypes.StringType,true));
        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType,true));
        //构建StructType,用于最后DataFrame元数据的描述
        StructType structType = DataTypes.createStructType(structFields);

        /**
         * 第三步：基于已有的MetaData以及RDD<Row>来构造DataFrame
         */
       Dataset personDs =  sqlContext.createDataFrame(personRDD,structType);
        /**
         * 第四步：注册成为临时表以供后续的SQL查询操作
         */
        personDs.registerTempTable("person");
        /**
         * 第五步：进行数据的多维度分析
         */
        Dataset result = sqlContext.sql("select * from person where age > 8 ");
        /**
         * 第六步：对结果进行处理，包括由dataFrame转换成为RDD<Row>以及结果的持久化
         */
        List<Row> listRow = result.javaRDD().collect();
        for (Row row :listRow){
            System.out.println(row);
        }

    }
}

5.运行结果：