ting_tu_ran_de-CSDN博客

原创 Spark大数据处理讲课笔记3.3 掌握RDD分区

文章目录零、本讲学习目标一、RRD分区（一）RDD分区概念（二）RDD分区作用二、RDD分区数量（一）RDD分区原则（二）影响分区的因素（三）使用parallelize()方法创建RDD时的分区数量1、指定分区数量2、默认分区数量3、分区源码分析（四）RDD分区方式（五）使用textFile()方法创建RDD时的分区数量1、指定最小分区数量2、默认最小分区数量3、默认实际分区数量三、Spark分区器。

2023-06-09 11:39:12 169

原创 Spark大数据处理讲课笔记4.6 Spark SQL数据源 - JDBC

若希望查询部分数据或多表关联查询，则可以使用SQL查询的FROM子句中有效的任何内容，例如放入括号中的子查询。当需要指定partitionColumn属性时，可以使用dbtable属性指定子查询，并使用子查询的别名对分区列进行限定。Spark SQL还可以使用JDBC API从其他关系型数据库读取数据，返回的结果仍然是一个DataFrame，可以很容易地在Spark SQL中处理，或者与其他数据源进行连接查询。执行上述命令（dbtable属性的值是一个子查询，相当于SQL查询中的FROM关键字后的一部分）

2023-06-09 11:16:14 487

原创 Spark大数据处理讲课笔记4.5 Spark SQL数据源 - Hive表

需要注意的是，从Spark2.0.0版本开始，hive-site.xml中的hive.metastore.warehouse.dir属性不再使用了，代替的是使用spark.sql.warehouse.dir指定默认的数据仓库目录。将数据帧数据写入hive表，执行命令：studentDF.select("name", "age").write.mode(SaveMode.Overwrite).saveAsTable("test").enableHiveSupport() // 开启Hive支持。

2023-06-09 11:05:13 440

原创 Spark大数据处理讲课笔记4.3 Spark SQL数据源 - Parquet文件

当写入Parquet文件时，为了提高兼容性，所有列都会自动转换为“可为空”状态。导入SaveMode类后，执行命令：usersdf.select("name", "favorite_color").write.mode(SaveMode.Overwrite)parquet("hdfs://master:9000/result")执行命令：usersdf.select("name", "favorite_color").write.parquet("hdfs://master:9000/result")

2023-06-09 10:58:46 617

原创 Spark大数据处理讲课笔记4.4 Spark SQL数据源 - JSON数据集

创建用户数组：执行命令：val userarr = Array("{'name': 'Mike', 'age': 18}", "{'name': 'Alice', 'age': 30}", "{'name': 'Brown', 'age': 38}")将用户数据集转成用户数据帧，执行命令：val userdf = spark.read.json(userds.rdd)（注意要将数据集转成RDD才能作为json()方法的参数）（三）利用json()方法将数据集转成数据帧。// 将用户数据集转成用户数据帧。

2023-06-09 10:52:32 349

原创 Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

执行命令：peopleDF.select("name", "age").write.format("parquet").save("hdfs://master:9000/datasource/output4") （注意：format("parquet")其实可以省掉的）导入SaveMode类，执行命令：peopledf.select("name").write.mode(SaveMode.Overwrite).format("json").save("hdfs://master:9000/result")

2023-06-09 10:43:05 416

原创 Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

定义一个样例类Student，用于存放数据描述信息（Schema基于样例类创建对象很简单，不需要new关键字，只需要传入相应参数即可创建对象。

2023-05-18 11:44:53 201

原创 Spark大数据处理讲课笔记3.8 Spark RDD典型案例

查看HDFS的结果文件。

2023-05-11 10:47:40 41

原创 Spark大数据处理讲课笔记1.4 掌握Scala运算符

零、本节学习目标理解Scala运算符与方法的等价性掌握Scala常用运算符理解Scala运算符种类一、运算符等价于方法Scala中运算符即方法、方法即运算符。Scala中运算符其实是普通方法调用的另一种表现形式，运算符的使用其实就是隐含地调用对应的方法。（一）运算符即方法op运算符与.op方法调用是等价的，op表示运算符：+、-、*、/……演示x + y与x.+(y)的等价性。

2023-05-11 10:40:37 51

原创 Spark大数据处理讲课笔记1.3 使用Scala集成开发环境

IntelliJ IDEA（简称IDEA）是一款支持Java、Scala和Groovy等语言的开发工具，主要用于企业应用、移动应用和Web应用的开发。IDEA在业界被公认为是很好的Java开发工具，尤其是智能代码助手、代码自动提示、重构、J2EE支持等功能非常强大。在前面，我们都是利用Scala Shell交互式环境来学习Scala基础知识，虽然交互式有快捷的优点，但是要写比较完整的程序，编辑就显得极为不便，为了提高开发效率，我们要学会使用Scala的集成开发环境 - IntelliJ IDEA。

2023-05-11 10:32:13 37

原创 Spark大数据处理讲课笔记1.2 Scala变量与数据类型

零、本节学习目标学会变量声明掌握数据类型初学Scala时，建议读者在Scala命令行模式中操作，最终程序的编写可以在IDE中进行。在Windows的CMD窗口中或CentOS的Shell命令中执行scala命令，即可进入Scala的命令行操作模式。下面我们将在Scala的命令行操作模式中学习Scala的基础知识。一、变量声明（一）简单说明Scala中变量的声明使用关键字val和var。val类似Java中的final变量，也就是常量，一旦初始化将不可修改；

2023-05-11 10:26:37 58

原创 Spark大数据处理讲课笔记3.6 RDD容错机制

零、本讲学习目标了解RDD容错机制理解RDD检查点机制的特点与用处理解共享变量的类别、特点与使用一、RDD容错机制当Spark集群中的某一个节点由于宕机导致数据丢失，则可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式，分别是血统（Lineage）方式和设置检查点（checkpoint）方式。（一）血统方式根据RDD之间依赖关系对丢失数据的RDD进行数据恢复。

2023-05-11 10:12:00 92

原创 Spark大数据处理讲课笔记1.1 搭建Scala开发环境

零、本节学习目标了解Scala语言的特点学会搭建Scala开发环境了解命令行模式与编译模式一、Scala简介（一）Scala概述Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。

2023-05-11 09:02:00 103

原创 Spark大数据处理讲课笔记3.4 理解RDD依赖

懒加载特性二、窄依赖窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解，我们通常把窄依赖形象地比喻为独生子女。RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；

2023-05-08 09:16:18 157

原创 Spark大数据处理讲课笔记3.2 掌握RDD算子

转为转换算子（三）扁平映射算子 - flatMap()1、扁平映射算子功能flatMap()算子与map()算子类似，但是每个传入给函数func的RDD元素会返回0到多个元素，最终会将返回的所有元素合并到一个RDD。2、扁平映射算子案例任务1、统计文件中单词个数读取文件，生成RDD - rdd1，查看其内容和元素个数对于rdd1按空格拆分，做映射，生成新RDD -rdd2对于rdd1按空格拆分，做扁平映射，生成新RDD -rdd3，有一个降维处理的效果。

2023-05-04 09:22:40 147