spark
文章平均质量分 54
99滴神
希望与大家共同进步!加油!
展开
-
Structured Streaming笔记
Structured Streaming笔记标准参考文档网站:http://spark.apache.org/docs/2.3.2/structured-streaming-programming-guide.html2、Structured Streaming 入门Scoket Source如下2.1、简单stuctured Streaming模板步骤: 1、 需求梳理 2、 Structured Streaming 代码实现 3、 运⾏ 4、 验证结果需求梳理: 1、编写⼀个流原创 2021-09-06 22:33:11 · 145 阅读 · 0 评论 -
Spark Stream笔记
Spark Streaming笔记⼊⼝类SparkStreaming//构造⽅法 def this(sparkContext: SparkContext, batchDuration: Duration) = { this(sparkContext, null, batchDuration) } def this(conf: SparkConf, batchDuration: Duration) = { this(StreamingContext.createNewSparkContext原创 2021-09-06 22:32:40 · 91 阅读 · 0 评论 -
sparkSQL笔记
SparkSQL笔记一、DataFrameDataFrame:理解了RDD,DataFrame就容易理解些,RDD是一个数据集,DataFrame在RDD的基础上加了Schema(描述数据的信息,可以认为是元数据,DataFrame曾经就有个名字叫SchemaRDD)。1.1、 SparkSQL基本编程1.1.1、SparkSession的创建1、在spark-shell中会自动创建SparkContext和SparkSession[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直原创 2021-09-06 22:32:06 · 191 阅读 · 0 评论 -
spark笔记
spark笔记1、hadoop与spark的关系与区别1.1、处理流程比较总结:1、Spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响性能。(不能说mr迭代不使用内存,只是不主打内存)2、Spark容错性高,它通过弹性分布式数据集RDD来实现高效容错;mapreduce的话容错可能只能重新计算了,成本较高。3、Spark更加通用,spark提供了transformation和action这两大类的多个功能a原创 2021-09-06 22:31:04 · 152 阅读 · 0 评论 -
Apache国内镜像下载地址
Apache的国内镜像地址如下:https://mirrors.tuna.tsinghua.edu.cn/apache/这个地址下载hadoop、hbase等Apache旗下的貌似速度快一些,大多数都能下载原创 2021-06-28 17:21:13 · 1885 阅读 · 0 评论 -
Spark -总结6- checkpoint的简单介绍
为什么要用checkpoint呢?checkpoint的意思就是建立检查点,类似于快照,比如,在spark计算中,计算流程DAG很长,要是将整个DAG计算完成并得出结果,需要很长时间,在这等待时间中突然中间数据丢失,spark就会根据RDD的依赖关系从头到尾开始计算一遍,这样会很费性能的,怎么解决呢?这就需要用到缓存了,我们可以将中间的计算结过通过cache或者persist方式放到内存中,这样也不一定保证数据不会丢失,如果存储的内存除了问题,也是会导致spark重新根据RDD计算的,所以就有了check原创 2021-06-26 16:49:17 · 376 阅读 · 0 评论 -
Spark -总结5-DataFrame的select和selectExpr的区别
select:数据DataFrame的方法,是从df中选择列的方式selectExpr: 可以对指定字段进行特殊处理,比如指定别名或者对指定字段调用UDF函数等,也就是说它可构建复杂的表达式其实select与selectExpr函数具有一样的功能效果...原创 2021-06-26 16:40:27 · 1231 阅读 · 2 评论 -
Spark -总结4- parallelize、makeRDD、textFile介绍和区别
在Spark中创建RDD的方式分为三种:1、从外部存储创建RDD2、从集合中创建RDD3、从其他RDD创建从集合中创建RDD:parallelize和makeRDD从读取外部数据集创建RDD:textFile1、parallelize调用SparkContext 的 parallelize()方法,将一个存在的集合,变成一个RDD2、makeRDD2.1、方法一:/** Distribute a local Scala collection to form an RDD. *原创 2021-06-19 22:22:46 · 1600 阅读 · 2 评论 -
SparkSQL -总结3- RDD的概念和特性
RDD 概念1、RDD是一个抽象分布式数据集DataSet,是一个数据描述。2、RDD是Spark提供的核心抽象,表示一个可以进行并行操作的元素的不可变集合。DataSet 可以理解成一个集合,集合里面存储了很多数据。Distributed 它的数据是分布式存储的,每个分区指向一个存储在内存或者硬盘中的数据块 (Block)。Resilient 弹性在面对出错情况(例如任意一台节点宕机)时,Spark 能通过 RDD 之间的依赖关系恢复任意出错的 RDD(如 B 和 D 可以算出最后的 RD原创 2021-06-19 21:47:10 · 272 阅读 · 0 评论 -
SparkSQL -总结2- 中DSL风格和SQL风格的使用
准备工作:读取文件并转换为DataFrame或DataSetval lineRDD= sc.textFile("hdfs://192.168.1.101:9000/person.txt").map(_.split(" "))case class Person(id:Int, name:String, age:Int)val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))val personDF = pers原创 2021-06-19 21:30:47 · 618 阅读 · 0 评论 -
exception: org.apache.hadoop.security.AccessControlException Permission denied: user=µȴ, access=WRIT
使用IDEA写sparkSQL向hive中建表插入数据出现以下异常:exception: **org.apache.hadoop.security.AccessControlException** Permission denied: user=µȴ, access=WRITE, inode="/user/hive/warehouse":root:supergroup:drwxr-xr-x原因:1、远程提交的情况下如果没有hadoop 的系统环境变量,就会读取当前主机的用户名,所以Hadoop集群的原创 2021-06-19 19:35:04 · 853 阅读 · 0 评论 -
spark -总结1- CompactBuffer是什么类型
CompactBuffer并不是scala里定义的数据结构,而是spark里的数据结构,它继承自一个迭代器和序列,所以它的返回值是一个很容易进行循环遍历的集合。spark的groupByKey算子结果按key进行分组,生成了一组CompactBuffer结构的数据,PairRDD特有的 ,普通RDD没有示例如下:scala> val words = Array("one", "two", "two", "three", "three", "three")words: Array[S原创 2021-06-10 22:37:01 · 2541 阅读 · 3 评论