课堂笔记-大数据处理库Spark
文章平均质量分 91
大数据处理库Spark
贫坤户~濰小城
※不断地让自己有新理想、新计划,使自己有新的发挥,生活才不致平淡无聊,生命的价值也才能充分地显现。
展开
-
Spark大数据处理讲课笔记4.8 Spark SQL典型案例
有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科总分与平均分。设置项目信息(项目名、保存位置、组编号、项目编号)设置项目信息(项目名、保存位置、组编号、项目编号)Python成绩表 -单击【Finish】按钮。单击【Finish】按钮。原创 2023-06-16 17:25:15 · 1987 阅读 · 0 评论 -
大数据实时处理学期总结(Spark、Scala)
Spark和Scala是两个紧密相关的技术,它们一起构成了大数据处理和机器学习领域的重要工具。在本学期的学习中,我深入了解了Spark和Scala的基础知识和应用场景,并掌握了如何使用它们来解决实际问题。在这篇总结中,我将分享我的学习体验和心得,以及遇到的问题和解决方案。首先,我想谈谈Scala语言。Scala是一种面向对象的编程语言,它具有静态类型、函数式编程和面向对象编程的特性。Scala的语法简洁明了,代码可读性高,使得编写和维护代码变得更加容易。原创 2023-06-15 20:28:05 · 433 阅读 · 0 评论 -
Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作
使用format()方法可以手动指定数据源。数据源需要使用完全限定名(例如),但对于Spark SQL的内置数据源,也可以使用它们的缩写名(JSON、Parquet、JDBC、ORC、Libsvm、CSV、Text)。通过手动指定数据源,可以将DataFrame数据集保存为不同的文件格式或者在不同的文件格式之间转换。在指定数据源的同时,可以使用option()方法向指定的数据源传递所需参数。例如,向JDBC数据源传递账号、密码等参数。原创 2023-06-15 20:05:42 · 2106 阅读 · 1 评论 -
Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式的数据集合,但与RDD不同,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。原创 2023-06-15 19:58:05 · 1723 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.7 Spark任务调度
零、本节学习目标理解DAG概念 了解Stage划分 了解RDD在Spark中的运行流程一、有向无环图(一)DAG概念DAG(Directed Acyclic Graph)叫做有向无环图,Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。DAG是一种非常重要的图论数据结构。如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。“4→6→1→2”是一条路径,“4→6→5”也是一条路径,并且图中不存在从顶点经过若干条边后能回到该点。(二)实例讲原创 2023-06-15 19:47:35 · 839 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.8 Spark RDD典型案例
(4)取分组后的日期集合最小值,计数为1。(2)利用映射算子生成二元组构成的RDD。(3)按键分组得到新的二元组构成的RDD。(2)倒排,互换RDD中元组的元素顺序。(5)按键计数,得到每日新增用户数。(3)倒排后的RDD按键分组。(1)读取成绩文件得到RDD。(2)创建分组排行榜单例对象。(1)读取文件,得到RDD。(6)让输出结果按日期升序。(3)运行程序,查看结果。(5)按指定格式输出结果。(3)运行程序,查看结果。(4)按值排序,取前三。(1)打开RDD项目。(1)打开RDD项目。原创 2023-05-11 11:15:19 · 735 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.6 RDD容错机制
会单独启动一个任务将标记为检查点的RDD的数据写入文件系统,如果RDD的数据已经持久化到了内存,将直接从内存中读取数据,然后进行写入,提高数据写入效率,否则需要重复计算一遍RDD的数据。方法指定的文件系统目录中,并且该RDD的所有父RDD依赖关系将被移除,因为下一次对该RDD计算时将直接从文件系统中读取数据,而不需要根据依赖关系重新计算。在第一次行动计算时,被标记为检查点的RDD的数据将以文件的形式保存在。语句,关闭了Spark容器,缓存的数据就被清除了,当然也无法访问Spark的存储数据。原创 2023-05-11 10:30:23 · 401 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.5 RDD持久化机制
若RDD3没有持久化保存,则每次对RDD3进行操作时都需要从textFile()开始计算,将文件数据转化为RDD1,再转化为RDD2,最终才得到RDD3。如果希望手动删除RDD,而不是等待该RDD被Spark自动从缓存中删除,那么可以使用RDD的。Spark的缓存是容错的:如果缓存的RDD的任何分区丢失,Spark就会按照该RDD原来的转换过程自动重新计算并缓存。上述操作说明,调用RDD的persist()方法只是将该RDD标记为持久化,当执行行动操作时才会对标记为持久化的RDD进行持久化操作。原创 2023-05-11 09:27:01 · 385 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.4 理解RDD依赖
懒加载特性。原创 2023-05-11 09:02:24 · 801 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.3 掌握RDD分区
在有些情况下,使用Spark自带的分区器满足不了特定的需求。例如,某学生有以下3科三个月的月考成绩数据。科目成绩chinese98math88english96chinese89math96english67chinese88math78english89现需要将每一科成绩单独分配到一个分区中,然后将3科成绩输出到HDFS的指定目录(每个分区对应一个结果文件),此时就需要对数据进行自定义分区。原创 2023-05-11 08:59:06 · 637 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.2 掌握RDD算子
函数本质就是一种特殊的映射。上面这个映射写成函数:f ( x ) = 2 x , x ∈ R f(x)=2x,x\in \Bbb Rf(x)=2x,x∈R。,不是一元函数,而是二元函数,系统立马就蒙逼了,不晓得该怎么取两个参数来进行乘法运算。但是有点美中不足,rdd2的元素变成了双精度实数,得转化成整数。因为RDD的元素为分布式的,数据可能分布在不同的节点上。Spark会将RDD中的每个元素传入该函数的参数中。都为转化算子,调用转化算子不会立即计算结果。为函数的参数名称,也可以使用其他字符,例如。原创 2023-05-04 09:24:54 · 553 阅读 · 0 评论 -
Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目
由于Spark项目要求Spark内核版本与Scala库版本(主版本.次版本)要保持一致,否则本地都无法运行项目。Spark3.2.0开始,要求Scala库版本就更新到了2.13,只有Spark3.1.3使用Scala库版本依然是2.12,因此Spark项目选择使用Spark3.1.3。由于没有将依赖包添加到生成的jar包,所以生成的jar包很小,只有5KB。如果将全部依赖包都打进jar包,那么生成的jar包就会有几十兆。(只设置输入路径参数,没有设置输出路径参数)修改名称,将输出目录里的依赖包全部移除。原创 2023-04-20 11:18:43 · 632 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.1 掌握RDD的创建
将数据集(hello, world, scala, spark, love, spark, happy)存储在三个节点上,节点一存储(hello, world),节点二存储(scala, spark, love),节点三存储(spark, happy),这样对三个节点的数据可以。在编程时,可以把RDD看作是一个数据操作的基本单位,而不必关心数据的分布式特性,Spark会自动将RDD的数据分发到集群的各个节点。想法是活的,语法是死的,重要的是得先有想法,然后用语法去实现。,查看RDD中的内容,保存到常量。原创 2023-04-20 10:58:01 · 362 阅读 · 0 评论 -
Spark大数据处理讲课笔记2.2 搭建Spark开发环境
为应用程序运行在Worker节点上的一个进程,由Worker进程启动,负责执行具体的Task,并存储数据在内存或磁盘上。提交Spark作业后,观察Spark集群管理界面,其中“Running Applications”列表表示当前Spark集群正在计算的作业,执行几秒后,刷新界面,在Completed Applications表单下,可以看到当前应用执行完毕,返回控制台查看输出信息,出现了“命令,查看启动的进程。该参数根据不同的Spark集群模式,其取值也有所不同,常用取值如下表所示。原创 2023-04-06 09:05:51 · 327 阅读 · 0 评论 -
Spark大数据处理讲课笔记2.3 Spark运行架构与原理
零、本讲学习目标了解Spark集群运行架构 了解Spark运行基本流程一、基本概念(一)Executor(执行器)在集群工作节点上为某个应用启动的工作进程,该进程负责运行计算任务,并为应用程序存储数据。(二)Task(任务)运行main()方法并创建SparkContext的进程。(三)Job(作业)一个并行计算作业,由一组任务组成,并由Spark的行动算子(如:save、collect)触发启动。(四)Stage(阶段)每个Job可划分为更小的Task集合,每组任务被称为原创 2023-04-06 09:05:43 · 328 阅读 · 0 评论 -
Spark大数据处理讲课笔记2.1 初识Spark
Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。原创 2023-04-01 09:18:58 · 161 阅读 · 0 评论