SparkSQL
ss
稳哥的哥
babe babe babe wowowowowowoow~!
寒江孤影、江湖故人
展开
-
SPARK-SQL-之UDF、UDAF
SPARK-SQL-之UDF、UDAF1、UDF使用// 注册函数 spark.udf.register("prefix1", (name: String) => { "Name:" + name})// 使用函数spark.sql("select *,prefix1(name) from users").show()2、UDAF使用2.1 弱类型// 1 定义UDAF(弱类型、3.0.0之前得版本可以使用,没标记过时)package com.shufang.rdd原创 2021-08-25 21:58:34 · 348 阅读 · 0 评论 -
SparkSQL的内置SQL函数大全
SparkSQL的内置函数SparkSQL的SQL API和函数基本都能满足Hive的标准SQL使用,百分之90+的函数在Hive和SparkSQL中都是兼容的,或许有少量的不一样,但是完全ojXk????具体官网函数参考地址:http://spark.apache.org/docs/2.4.0/api/sql...原创 2020-05-24 19:18:33 · 1708 阅读 · 0 评论 -
RDD&DF&DS的相互转化
RDD&DF&DS的相互转化RDD\DF\DS之间的简单转换,当然可以通过Schema创建对应的DFpackage com.shufang.sparksqlimport com.shufang.beans.Numimport com.shufang.utils.SparkUtilimport org.apache.spark.rdd.RDDimport org.apache.spark._import org.apache.spark.sql._/** * 本垒主要讲解原创 2020-05-19 20:36:51 · 1197 阅读 · 0 评论 -
SPARK-SQL性能调优
SPARK-SQL性能调优SparkSQL的官方优化可以参考(本文主要从Spark2.4.0来概述):http://spark.apache.org/docs/2.4.0/sql-performance-tuning.html#caching-data-in-memoryFor some workloads, it is possible to improve performance by either caching data in memory, or by turning on some exp原创 2020-05-14 16:52:29 · 461 阅读 · 0 评论 -
SparkSQL数据源解析
SparkSQL数据源解析SparkSQL是Spark用来处理结构化数据的模块,常用的数据源有:常用的结构化文件如:Json、Parquet、Orc、Avro、TextJdbc相关的数据库Hive 表下面介绍不同的数据源简单的代码实现。SparkSQL的常用读取形式:spark.sql()spark.read.format().load()常用的输出形式:spark.write.format("parquet").mode.option().save()Parquet File在原创 2020-05-09 18:44:07 · 501 阅读 · 0 评论 -
SparkSQL是什么(概括)
SparkSQL-概括简介SparkSQL是Spark整体架构用来处理结构化数据的模块,SparkSQL的接口为Spark提供了有关数据结构和执行信息,在内部,SparkSQL使用这些额外的信息来优化应用程序,SparkSQL有提供2种不同的数据抽象DataFrameDataSet2种不同的数据抽象分别对应不同的API,有不同的但是类似的算子操作,另外SparkSQL还提供了SQL查询DataSet & DataFrameDataset一个Dataset也属于一个分布式弹性数据集原创 2020-05-09 18:46:29 · 1673 阅读 · 0 评论