- 博客(11)
- 收藏
- 关注
原创 大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集
执行命令:studentDS.select(studentDS("id").as("学号"), studentDS("name").as("姓名"), studentDS("gender").as("性别"), studentDS("age").as("年龄")).show()执行命令:df.select(df("id").as("学号"), df("name").as("姓名"), df("gender").as("性别"), df("age").as("年龄")).show()
2023-06-15 14:05:45 191
原创 大数据处理讲课笔记3.6 RDD容错机制
Spark建议,在将RDD标记为检查点之前,最好将RDD持久化到内存,因为Spark会单独启动一个任务将标记为检查点的RDD的数据写入文件系统,如果RDD的数据已经持久化到了内存,将直接从内存中读取数据,然后进行写入,提高数据写入效率,否则需要重复计算一遍RDD的数据。cache()或者persist()是将数据存储于机器本地的内存或磁盘,当机器发生故障时无法进行数据恢复,而检查点是将RDD数据存储于外部的共享文件系统(例如HDFS),共享文件系统的副本机制保证了数据的可靠性。因此,广播变量是只读的。
2023-06-15 13:49:54 157 1
原创 大数据处理讲课笔记3.5 RDD持久化机制
Spark会自动监视每个节点上的缓存使用情况,并以最近最少使用的方式从缓存中删除旧的分区数据。从上述代码可以看出,cache()方法调用了无参的persist()方法,两者的默认存储级别都为MEMORY_ONLY,但cache()方法不可更改存储级别,而persist()方法可以通过参数自定义存储级别。Spark中重要的功能之一是可以将某个RDD中的数据保存到内存或者磁盘中,每次需要对这个RDD进行算子操作时,可以直接从内存或磁盘中取出该RDD的持久化数据,而不需要从头计算才能得到这个RDD。
2023-06-15 13:46:28 178 1
原创 大数据处理讲课笔记3.1 掌握RDD的创建
将数据集(hello, world, scala, spark, love, spark, happy)存储在三个节点上,节点一存储(hello, world),节点二存储(scala, spark, love),节点三存储(spark, happy),这样对三个节点的数据可以并行计算,并且三个节点的数据共同组成了一个RDD。在编程时,可以把RDD看作是一个数据操作的基本单位,而不必关心数据的分布式特性,Spark会自动将RDD的数据分发到集群的各个节点。不同的是,数据的来源路径不同。
2023-06-15 13:37:37 148 1
原创 大数据处理学习笔记2.4
一、词频统计准备工作单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。(一)创建本地单词文件在D:\spark_work\wordcount\input里创建单词文件words.txt。
2023-06-09 12:07:40 137 1
原创 大数据处理学习笔记2.2
一、Spark开发环境准备工作由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的HDFS、HBase等组件负责数据的存储管理,Spark负责数据计算。安装Spark集群前,需要安装Hadoop环境二、了解Spark的部署模式(一)Standalone模式Standalone模式被称为集群单机模式。
2023-06-09 12:01:28 117 1
原创 大数据处理学习笔记1.1
在包net.huawei.day01上右击,选择New→Scala Class,选择创建Object,创建一个Scala对象TestHelloWorld,在里面创建主方法,实例化HelloScala,然后调用其speak()方法。在IDEA的欢迎界面中单击Create New Project按钮,在弹出的窗口中选择左侧的Scala项,然后选择右侧的IDEA项,单击Next按钮。Scala类创建成功后,即可编写Scala程序,定义一个没有返回值的speak()方法,用来输出一条信息。我们学习在线安装方式。
2023-06-09 11:48:30 61 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人