![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 83
smallworldxyl
这个作者很懒,什么都没留下…
展开
-
IDEA SparkSQL连接外部hive报错Error while instantiating ‘org.apache.spark.sql.hive.HiveSessionState‘:
原图Exception in thread "main" java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState': at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$reflect(SparkSession.scala:981) at org.apac原创 2021-02-03 16:02:13 · 2057 阅读 · 0 评论 -
SparkSQL(三)-----------操作Hive
scala> spark.sql("show tables").show+--------+---------+-----------+|database|tableName|isTemporary|+--------+---------+-----------++--------+---------+-----------+1234scala> spark.sql("load data local inpath '/usr/hadoop/spark-2.1.1/data/原创 2021-02-03 17:23:00 · 322 阅读 · 0 评论 -
SparkSQL(二)------------IDEA 开发(UDF,UDAF)
一.基础操作1.添加依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version></dependency>2.编程实现2.1创建对象 //创建上下文环境配置对象 val conf: SparkConf = new Spar原创 2021-02-03 17:10:24 · 238 阅读 · 0 评论 -
SparkSQL(一)-----------简介及命令行使用
文章总结自b站尚硅谷系列教程一.SparkSQL简介Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。1.Hive and SparkSQLSparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具。Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了原创 2021-02-02 16:12:39 · 1900 阅读 · 1 评论 -
Spark学习笔记(详解,附代码实列和图解)----------累加器和广播变量
1.分区器import org.apache.spark.rdd.RDDimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}object RDD_PART { def main(args: Array[String]): Unit = { val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")原创 2021-02-01 14:41:33 · 127 阅读 · 0 评论 -
Spark学习笔记(详解,附代码实列和图解)----------RDD(四)分区器
七.RDD分区器Spark 目前支持 Hash 分区和 Range 分区,和用户自定义分区。Hash 分区为当前的默认分区。分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分区,进而决定了 Reduce 的个数。➢ 只有 Key-Value 类型的 RDD 才有分区器,非 Key-Value 类型的 RDD 分区的值是 None➢ 每个 RDD的分区 ID 范围:0 ~ (numPartitions - 1),决定这个值是属于那个分区的。1.Hash 分原创 2021-02-01 13:27:41 · 184 阅读 · 0 评论 -
Spark学习笔记(详解,附代码实列和图解)----------RDD(三)持久化
六. RDD 持久化当需要对RDD连续使用时,重复调用是否就可以避免从头再来呢?val list = List("Hello Scala", "Hello Spark") val rdd = sc.makeRDD(list) val flatRDD = rdd.flatMap(_.split(" ")) val mapRDD = flatRDD.map(word=>{ println("@@@@@@@@@@@@") (word,1) })原创 2021-01-31 18:35:23 · 188 阅读 · 2 评论 -
Spark学习笔记(详解,附代码实列和图解)----------RDD(二)行动算子,依赖关系
四.RDD行动算子行动算子所谓的行动算子,其实就是触发作业(Job)执行的方法底层代码调用的是环境对象的runJob方法底层代码中会创建ActiveJob,并提交执行。1.reduce➢ 函数签名def reduce(f: (T, T) => T): T➢ 函数说明聚集 RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 val rdd=sc.makeRDD(List(1,2,3,4)) val result = rdd.reduce(_+_) p原创 2021-01-29 16:59:38 · 191 阅读 · 0 评论 -
Spark学习笔记(详解,附代码实列和图解)----------RDD(一)基础和转换算子
package org.xyl;import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}class ScalaWordCount {}object ScalaWordCount{ def main(args: Array[String]): Unit = { var list=List("hello hi hi spark ", "hello spark hello原创 2021-01-27 21:12:09 · 291 阅读 · 0 评论 -
SparkStreaming笔记(一)
package org.xylimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreaming_01 { def main(args: Array[String]): Unit = {原创 2021-02-06 20:44:40 · 220 阅读 · 0 评论