SparkSQL简单使用

最新推荐文章于 2024-06-18 08:45:00 发布

vincc177

最新推荐文章于 2024-06-18 08:45:00 发布

阅读量2.3k

点赞数 4

分类专栏：头歌-大数据与云计算文章标签： spark scala 大数据

本文链接：https://blog.csdn.net/qq_56710665/article/details/128386652

版权

头歌-大数据与云计算专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本博客介绍了SparkSQL的基础知识，包括其作为结构化和半结构化数据操作接口的功能，如从JSON、Parquet等数据源读取数据，支持SQL查询以及与Spark程序的集成。此外，还详细讲解了如何创建和使用SparkSession。在进一步的实践中，展示了如何读取JSON文件，过滤数据并展示结果，以及如何定义和使用自定义聚合函数MyAverage来计算平均薪资。

摘要由CSDN通过智能技术生成

第1关：SparkSQL初识

任务描述

本关任务：编写一个sparksql基础程序。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

打印spark的版本号。

代码实现

package com.educoder.bigData.sparksql;

import org.apache.spark.sql.AnalysisException;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


public class Test1 {

	public static void main(String[] args) throws AnalysisException {
		/********* Begin *********/
		SparkSession  spark  =  SparkSession 
                  .builder()
                  .appName("Java Spark SQL基本示例")
                  .master("local")
                  .config("spark.some.config.option" , "some-value")
                  .getOrCreate();
 //打印spark版本号
 System.out.println(spark.version());

		/********* End *********/
	}

}

第2关：Dataset创建及使用

编程要求

根据提示，在右侧编辑器补充代码，读取people.json文件，过滤age为23的数据，并以表格形式显示前20行Dataset。

代码实现

package com.educoder.bigData.sparksql;

import org.apache.spark.sql.AnalysisException;
import org.apache.spark.sql.SparkSession;


public class Test2 {


	public static void main(String[] args) throws AnalysisException {
		
		SparkSession  spark  =  SparkSession 
				  .builder()
				  .appName("test1")
				  .master("local")
				  .config("spark.some.config.option" , "some-value")
				  .getOrCreate();
		/********* Begin *********/
		
		//读取json，并将Dataset,并注册为SQL临时视图
        spark.read().json("people.json").createOrReplaceTempView("people");

        spark.sql("select * from people where age !='23'").show();

		/********* End *********/
	}

}

第3关：Dataset自定义函数

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，编写自定义函数类MyAverage，用来计算用户薪水平均值，平台已提供了最后的实现：

代码实现

package com.educoder.bigData.sparksql;

import java.util.ArrayList;
import java.util.List;

import org.apache.spark.sql.Row;
import org.apache.spark.sql.expressions.MutableAggregationBuffer;
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

public class MyAverage extends UserDefinedAggregateFunction {
	
	private static final long serialVersionUID = 1L;
	
	private StructType inputSchema;
	private StructType bufferSchema;

	public MyAverage() {
		/********* Begin *********/
        List<StructField> inputFields = new ArrayList<StructField>();
        inputFields.add(DataTypes.createStructField("inputColumn", DataTypes.       LongType, true));
        inputSchema = DataTypes.createStructType(inputFields);
        List<StructField> bufferFields = new ArrayList<StructField>();
        bufferFields.add(DataTypes.createStructField("sum", DataTypes.LongType, true));
        bufferFields.add(DataTypes.createStructField("count", DataTypes.LongType, true));
        bufferSchema = DataTypes.createStructType(bufferFields);
		/********* End *********/
	  }
	
	@Override
	public StructType bufferSchema() {
		/********* Begin *********/
		
		//return null;
		return bufferSchema;
		/********* End *********/
	}

	@Override
	public DataType dataType() {
		/********* Begin *********/
		
		//return null;
		return DataTypes.DoubleType;
		/********* End *********/
	}

	@Override
	public boolean deterministic() {
		// TODO Auto-generated method stub
		return true;
	}

	@Override
	public Object evaluate(Row buffer) {
		/********* Begin *********/
		
		//return null;
		return ((double) buffer.getLong(0)) / buffer.getLong(1);
		/********* End *********/
	}

	@Override
	public void initialize(MutableAggregationBuffer buffer) {
		/********* Begin *********/
		buffer.update(0, 0L);
        buffer.update(1, 0L);
		
		/********* End *********/	

	}

	@Override
	public StructType inputSchema() {
		/********* Begin *********/
		
		//return null;
		return inputSchema;
		/********* End *********/
	}

	@Override
	public void merge(MutableAggregationBuffer buffer1, Row buffer2) {
		/********* Begin *********/
		long mergedSum = buffer1.getLong(0) + buffer2.getLong(0);
        long mergedCount = buffer1.getLong(1) + buffer2.getLong(1);
        buffer1.update(0, mergedSum);
        buffer1.update(1, mergedCount);

		
		
		/********* End *********/
	}

	@Override
	public void update(MutableAggregationBuffer buffer, Row input) {
		/********* Begin *********/
		if (!input.isNullAt(0)) {
        long updatedSum = buffer.getLong(0) + input.getLong(0);
        long updatedCount = buffer.getLong(1) + 1;
        buffer.update(0, updatedSum);
        buffer.update(1, updatedCount);
        }
		
		
		/********* End *********/

	}

}