内容:
1.作业特别说明
2.使用Java实战RDD与DataFrame转换
3.使用Scala实战RDD与DataFrame转换
一、作业特别说明
1.列的个数,以及每一列的具体的信息只有在运行的时候才会知道:
2.生产环境时候,常用的方式:动态转化,
第一:生产环境的时候,一开始不容易确定每一条记录的不同的列的元数据信息,以及这条数据到底有多少列。
第二:生产环境业务容易发生变化,数据类型容易发生变化,这样就能够应对变化的业务。可以应对来自数据库或是其他的文件,这样就不需要改动自己的代码了。
二、使用Java实战RDD与DataFrame转换
1.动态构造有时候有些麻烦:spark开发了一个API就是DataSet,DataSet可以基于RDD,RDD里面有类型。他可以基于这种类型。
2.sparkSQL+DataFrame+DataSet:三者都相当重要,在2.0的时候编码会使用大量使用DataSet。DataSet上可以直接查询。Spark的核心RDD+DataFrame+DataSet:最终会形成三足鼎立。
3.RDD实际是服务SparkSQL的。DataSet是想要用所有的子框架都用DataSet进行计算。DataSet的底层是钨丝计划。这就让天然的性能优势体现出来。官方建议使用hiveContext,在功能上比SQLContext的更好更高级的功能。
4.代码示例:
a)person.txt
1,Spark,7
2,Hadoop,11
3,Flink,5
b)Person.class
package SparkSQL;
import java.io.Serializable;
/**
* FileName: Person
* Author: hadoop
* Email: 3165845957@qq.com
* Date: 18-10-28 下午4:27
* Description:
*/
public class Person implements Serializable {
private int id;
private String name;
private int age;
public int getId() {
return id;
}
public void setId(int id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
@Override
public String toString() {
return "Person{" + "id=" + id + ", name='" + name + '\'' + ", age=" + age + '}';
}
}
c)RDDToDataFrameByProgramatically.class
package SparkSQL;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import java.util.ArrayList;
import java.util.List;
/**
* FileName: RDDToDataFrameByProgramatically
* Author: hadoop
* Email: 3165845957@qq.com
* Date: 18-10-28 下午8:00
* Description:
*/
public class RDDToDataFrameByProgramatically {
public static void main(String[] args){
//创建SparkConf用于读取系统信息并设置运用程序的名称
SparkConf conf = new SparkConf().setAppName("RDDToDataFrameByReflection").setMaster("spark://Master:7077");
//创建JavaSparkContext对象实例作为整个Driver的核心基石
JavaSparkContext sc = new JavaSparkContext(conf);
//设置输出log的等级,可以设置INFO,WARN,ERROR
sc.setLogLevel("ERROR");
//创建SQLContext上下文对象,用于SqL的分析
SQLContext sqlContext = new SQLContext(sc);
//创建RDD,读取textFile
JavaRDD<String> lines = sc.textFile("/home/hadoop/person.txt");
/**
* 第一步:在RDD的基础上创建类型为Row的RDD
*/
JavaRDD<Row> personRDD = lines.map(new Function<String, Row>() {
@Override
public Row call(String line) throws Exception {
String[] splited = line.split(",");
return RowFactory.create(Integer.valueOf(splited[0]),splited[1], Integer.valueOf(splited[2]));
}
});
/**
* 第二部:动态构造DataFrame的元数据,一般而言,有多少列以及每列的具体类型可能来自于json文件,也可能来自于数据库
*/
List<StructField> structFields = new ArrayList<StructField>();
structFields.add(DataTypes.createStructField("id", DataTypes.IntegerType,true));
structFields.add(DataTypes.createStructField("name", DataTypes.StringType,true));
structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType,true));
//构建StructType,用于最后DataFrame元数据的描述
StructType structType = DataTypes.createStructType(structFields);
/**
* 第三步:基于已有的MetaData以及RDD<Row>来构造DataFrame
*/
Dataset personDs = sqlContext.createDataFrame(personRDD,structType);
/**
* 第四步:注册成为临时表以供后续的SQL查询操作
*/
personDs.registerTempTable("person");
/**
* 第五步:进行数据的多维度分析
*/
Dataset result = sqlContext.sql("select * from person where age > 8 ");
/**
* 第六步:对结果进行处理,包括由dataFrame转换成为RDD<Row>以及结果的持久化
*/
List<Row> listRow = result.javaRDD().collect();
for (Row row :listRow){
System.out.println(row);
}
}
}
5.运行结果: