Spark
文章平均质量分 79
Spark学习记录
默默走开
待我荣耀归来,我娶你可好?
展开
-
【Spark】SparkCore深入解析(一)
(图片来源于网络,侵删)textFile() 与 sc.wholeTextFiles的区别 1)当指定的路径是目录且该目录下全部都是文件时,textFile() 和 wholeTextFiles() 都正常读取 2)当指定的路径是文件时,textFile() 和 wholeTextFiles() 都正常读取 3)当指定的路径是目录且该目录下既有文件也有目录时,textFile() 会报错, wholeTextFiles() 正常读取该目录下的所有文件 1)textFile读取文件.原创 2020-05-15 15:13:21 · 2100 阅读 · 1 评论 -
【Spark】Spark基础练习题(六)
(图片来源于网络,侵删)Spark考卷来啦,看看你能得到多少分,评论告诉我吧!---------------------------------【Spark考题????】----------------------------------一、单选scala中多行字符用什么来表示 ( 单选 1分 )A."B.""C."""D.""""参考答案: Cscala中val pa=(40...原创 2020-04-26 15:17:19 · 10208 阅读 · 1 评论 -
【Spark】SparkStreaming入门解析(二)
(图片来源于网络,侵删)一、Spark Streaming整合Kafka【1】 概述开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法:1)Receiver接收方式:KafkaUtils.createDstream(开发中不用)Receiver作为常驻的Tas...原创 2020-04-23 23:04:58 · 2783 阅读 · 5 评论 -
【Spark】Spark基础练习题(五)
没错,我又来了。。。对,题又来了,准备接招吧!题目如下????-------------------------------以下使用Structured Streaming:-------------------------------1、请使用Structured Streaming读取Socket数据,统计出每个单词的个数2、请使用Structured Streaming读取student...原创 2020-04-17 19:07:49 · 7287 阅读 · 3 评论 -
【Spark】Structured Streaming入门解析(一)
我们学习了Structured Streaming之后知道outputMode有三种模式,如下????那么这三种模式有什么区别呢?我大致总结了一下????1.Append mode:输出新增的行,默认模式。每次更新结果集时,只将新添加到结果集的结果行输出到接收器。仅支持添加到结果表中的行永远不会更改的查询。因此,此模式保证每行仅输出一次。例如,仅查询select,where,map,flatMap,...原创 2020-04-16 19:54:51 · 6152 阅读 · 3 评论 -
【Spark】SparkSQL入门解析(二)
【一】SparkSQL数据源【1】Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询【2】 Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项...原创 2020-04-15 20:29:35 · 4777 阅读 · 0 评论 -
【Spark】Spark基础练习题(四)
我又又带来一堆Spark题了,这次是SparkSQL的!!!废话不多说,上题!!!题目如下????以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论数据说明:rng_comment.txt文件中的数据字段含义index数据idchild_comment回复数量comment_time评论时间content评论内容da_v微博个...原创 2020-04-14 17:19:47 · 6597 阅读 · 3 评论 -
【Spark】Spark基础练习题(三)
我又带来一堆Spark题了,这次是SparkSQL的!!!废话不多说,上题!!!题目如下????1、分别给出四张表的数据分别是:student_info.txt字段是:学号,姓名,性别,所属班级编号,入学日期department_info.txt字段是:院系编号,院系名称class_info.txt字段是:班级编号,班级名称,入学日期,所属院系中文名student_scores.tx...原创 2020-04-13 22:05:28 · 7078 阅读 · 3 评论 -
【Spark】SparkStreaming入门解析(一)
一、Spark Streaming概述官网http://spark.apache.org/streaming简介Spark Streaming是一个基于Spark Core之上的、用于流式数据的处理实时计算框架,具有高吞吐量和容错能力强等特点可以从很多数据源消费数据并对数据进行实时的处理,数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算...原创 2020-04-10 23:32:33 · 7119 阅读 · 4 评论 -
【Spark】Spark基础练习题(二)
我又来了,又给你们带Spark练习题来了!!!题目如下????1、创建一个1-10数组的RDD,将所有元素*2形成新的RDD2、创建一个10-20数组的RDD,使用mapPartitions将所有元素*2形成新的RDD3、创建一个元素为 1-5 的RDD,运用 flatMap创建一个新的 RDD,新的 RDD 为原 RDD 每个元素的 平方和三次方 来组成 1,1,4,8,9,27..4...原创 2020-04-07 20:40:27 · 11501 阅读 · 18 评论 -
【Spark】Spark基础练习题(一)
为大家带来一些Spark的算子练习题,帮助大家巩固算子的用法!题目如下????1、读取文件的数据test.txt2、一共有多少个小于20岁的人参加考试?3、一共有多少个等于20岁的人参加考试?4、一共有多少个大于20岁的人参加考试?5、一共有多个男生参加考试?6、一共有多少个女生参加考试?7、12班有多少人参加考试?8、13班有多少人参加考试?9、语文科目的平均成绩是多少?10、数...转载 2020-04-06 18:01:39 · 10758 阅读 · 6 评论 -
【Spark】Spark错误记录
提交Spark任务到Yarn上运行,得到如下报错信息????研究了一会儿发现是自己粗心大意导致的,自己在本地IDEA跑多了,打包的时候忘记删除setMaster了,如下????虽然我们在提交任务到Yarn的时候,指定了Master,奈何在代码的优先级高于命令行指定参数,所以就算我们指定了Master也没有效果所以删除了setMaster这个属性就可以了所以在这里记录一下这个错误,下次一定不能犯了!...原创 2020-04-02 15:53:55 · 5314 阅读 · 4 评论 -
【Spark】SparkCore入门解析(五)
MR的ShuffleShuffle是什么?(以下部分图片来自于网络,侵删)Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶...原创 2020-03-30 20:00:57 · 5573 阅读 · 2 评论 -
【Spark】SparkCore入门解析(四)
累加器累加器是在Spark计算操作中变量值累加起来,可以被用来实现计数器、或者求和操作。Spark原生地只支持数字类型的累加器,编程者可以添加新类型的支持。如果创建累加器时指定了名字,可就以在SparkUI界面看到。这有利于理解每个执行阶段的进程。综合一句话来说,累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在 Excutor 端更新我们大致看下图大致了解一下累加器:...原创 2020-03-08 15:50:40 · 6415 阅读 · 1 评论 -
【Spark】SparkCore入门解析(三)
RDD编程【1】 RDD创建def main(args: Array[String]): Unit = { // 创建SparkConf对象 val config = new SparkConf().setMaster("local[*]").setAppName("RDD") // 创建Spark上下文对象 val sc = new SparkContext(...原创 2020-03-07 22:35:49 · 5537 阅读 · 5 评论 -
【Spark】SparkCore入门解析(二)
一、RDD概念【1】RDD概述① RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合② 在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值③ RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性④ RDD...原创 2020-03-07 10:34:20 · 5687 阅读 · 1 评论 -
【Spark】SparkCore入门解析(一)
一、Spark简介【1】什么是Spark?Apache Spark是用于大规模数据处理的统一分析引擎,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序【2】Spark特点运行速度快:Spark有先进的DAG执行引擎(Directed Acyclic Graph,有向无环图),支持循环数据流和内存计算易用:Spark支持使用Java、Scala、Python...原创 2020-03-05 22:27:29 · 6092 阅读 · 8 评论 -
【Spark】SparkSQL入门解析(一)
【一】简介 (本文部分图片来自网络,侵删)Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用【二】特点【2.1】易整合Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据,可在Java,Scala,Python和R中使用【2.2】统一的数据访...原创 2020-02-15 23:11:29 · 13474 阅读 · 4 评论