第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

内容:

    1.作业特别说明
    2.使用Java实战RDD与DataFrame转换
    3.使用Scala实战RDD与DataFrame转换

一、作业特别说明

1.列的个数,以及每一列的具体的信息只有在运行的时候才会知道:
2.生产环境时候,常用的方式:动态转化,
    第一:生产环境的时候,一开始不容易确定每一条记录的不同的列的元数据信息,以及这条数据到底有多少列。
    第二:生产环境业务容易发生变化,数据类型容易发生变化,这样就能够应对变化的业务。可以应对来自数据库或是其他的文件,这样就不需要改动自己的代码了。

二、使用Java实战RDD与DataFrame转换

    1.动态构造有时候有些麻烦:spark开发了一个API就是DataSet,DataSet可以基于RDD,RDD里面有类型。他可以基于这种类型。
    2.sparkSQL+DataFrame+DataSet:三者都相当重要,在2.0的时候编码会使用大量使用DataSet。DataSet上可以直接查询。Spark的核心RDD+DataFrame+DataSet:最终会形成三足鼎立。
    3.RDD实际是服务SparkSQL的。DataSet是想要用所有的子框架都用DataSet进行计算。DataSet的底层是钨丝计划。这就让天然的性能优势体现出来。官方建议使用hiveContext,在功能上比SQLContext的更好更高级的功能。
    4.代码示例:
     a)person.txt

1,Spark,7
2,Hadoop,11
3,Flink,5


    b)Person.class

package SparkSQL;

import java.io.Serializable;

/**
 * FileName: Person
 * Author:   hadoop
 * Email:    3165845957@qq.com
 * Date:     18-10-28 下午4:27
 * Description:
 */
public class Person implements Serializable {

        private int id;
        private String name;
        private int age;

        public int getId() {
            return id;
        }

        public void setId(int id) {
            this.id = id;
        }

        public String getName() {
            return name;
        }

        public void setName(String name) {
            this.name = name;
        }

        public int getAge() {
            return age;
        }

        public void setAge(int age) {
            this.age = age;
        }

        @Override
        public String toString() {
            return "Person{" + "id=" + id + ", name='" + name + '\'' + ", age=" + age + '}';
        }

}


    c)RDDToDataFrameByProgramatically.class

package SparkSQL;


import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;


import java.util.ArrayList;
import java.util.List;

/**
 * FileName: RDDToDataFrameByProgramatically
 * Author:   hadoop
 * Email:    3165845957@qq.com
 * Date:     18-10-28 下午8:00
 * Description:
 */
public class RDDToDataFrameByProgramatically {
    public static void main(String[] args){
        //创建SparkConf用于读取系统信息并设置运用程序的名称
        SparkConf conf  = new SparkConf().setAppName("RDDToDataFrameByReflection").setMaster("spark://Master:7077");
        //创建JavaSparkContext对象实例作为整个Driver的核心基石
        JavaSparkContext sc = new JavaSparkContext(conf);
        //设置输出log的等级,可以设置INFO,WARN,ERROR
        sc.setLogLevel("ERROR");
        //创建SQLContext上下文对象,用于SqL的分析
        SQLContext sqlContext = new SQLContext(sc);
        //创建RDD,读取textFile
        JavaRDD<String> lines = sc.textFile("/home/hadoop/person.txt");
        /**
         * 第一步:在RDD的基础上创建类型为Row的RDD
         */
        JavaRDD<Row> personRDD = lines.map(new Function<String, Row>() {
            @Override
            public Row call(String line) throws Exception {
                String[] splited = line.split(",");
                return RowFactory.create(Integer.valueOf(splited[0]),splited[1], Integer.valueOf(splited[2]));
            }
        });
        /**
         * 第二部:动态构造DataFrame的元数据,一般而言,有多少列以及每列的具体类型可能来自于json文件,也可能来自于数据库
         */
        List<StructField> structFields = new ArrayList<StructField>();
        structFields.add(DataTypes.createStructField("id", DataTypes.IntegerType,true));
        structFields.add(DataTypes.createStructField("name", DataTypes.StringType,true));
        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType,true));
        //构建StructType,用于最后DataFrame元数据的描述
        StructType structType = DataTypes.createStructType(structFields);

        /**
         * 第三步:基于已有的MetaData以及RDD<Row>来构造DataFrame
         */
       Dataset personDs =  sqlContext.createDataFrame(personRDD,structType);
        /**
         * 第四步:注册成为临时表以供后续的SQL查询操作
         */
        personDs.registerTempTable("person");
        /**
         * 第五步:进行数据的多维度分析
         */
        Dataset result = sqlContext.sql("select * from person where age > 8 ");
        /**
         * 第六步:对结果进行处理,包括由dataFrame转换成为RDD<Row>以及结果的持久化
         */
        List<Row> listRow = result.javaRDD().collect();
        for (Row row :listRow){
            System.out.println(row);
        }

    }
}


   5.运行结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值