---SparkSQL
SparkSQL
寒 暄
自渡
展开
-
SparkSQL操作Hive数据源
连接Hive与SparkSQL将hive安装目录中conf目录下的hive-site.xml拷贝至spark安装目录下的conf目录。然后启动SparkShell,运行:spark.sql("show tables").show()spark.sql("show databases").show()前者为元数据,后者为hive中的库。如果想要...原创 2020-08-07 15:04:04 · 386 阅读 · 0 评论 -
Spark SQL自定义函数UDF、UDAF以及开窗函数
UDFcom.udf.AppUdfpackage com.udfimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{DataTypes, StructField}import scala.util.Randomobject AppUdf { def main(args: Array[String]):原创 2020-08-06 15:11:34 · 253 阅读 · 0 评论 -
IDEA开发SparkSQL程序
SparkSession常用函数与方法方法说明builder创建一个sparkSession实例version返回当前spark的版本implicits引入隐式转化emptyDataset[T]创建一个空DataSetrange创建一个DataSet[Long]sql执行sql查询(返回一个dataFrame)udf自定义udf(自定义函数)table从表中创建DataFramecatalog访问结构化查询实体的目录原创 2020-08-06 11:37:30 · 293 阅读 · 0 评论 -
IDEA开发SparkSQL报错:org.apache.spark.SparkException: A master URL must be set in your configuration
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties20/08/06 10:33:42 INFO SparkContext: Running Spark version 2.4.420/08/06 10:33:42 ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: A maste原创 2020-08-06 10:46:35 · 1105 阅读 · 0 评论 -
SparkSQL--基础编程
DataFrame的基础操作创建一个DataFrame首先看一下SparkSQL可以接受那些类型:scala> spark.read.csv format jdbc json load option options orc parquet schema table text textFile注意:本文中的spark是sparkSession对象默认的名称然后去spark安装目录下将people.json文件上传至hdfs:[roo原创 2020-08-06 09:55:55 · 223 阅读 · 0 评论 -
SparkSQL--基础知识点
什么是SparkSQLSparkSQL是Spark用于处理结构化数据的一个模块,他将数据抽象为DataFrame和DataSet,并且SparkSQL也是OLAP数据引擎。Hive将SQL转换为MR提交给集群执行,那么SparkSQL就将SQL转换为RDD提交给集群执行。SparkSQL兼容HiveQL。什么是DataFrameDataFrame和RDD类似,都是一个用来存储数据的集合,但是DataFrame内部是以二维表的形式存储数据。SparkSQL的DataFrame和pandas的Dat原创 2020-08-05 11:42:04 · 342 阅读 · 0 评论