自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Spark大数据处理讲课笔记3.3 掌握RDD分区

文章目录零、本讲学习目标一、RRD分区(一)RDD分区概念(二)RDD分区作用二、RDD分区数量(一)RDD分区原则(二)影响分区的因素(三)使用parallelize()方法创建RDD时的分区数量1、指定分区数量2、默认分区数量3、分区源码分析(四)RDD分区方式(五)使用textFile()方法创建RDD时的分区数量1、指定最小分区数量2、默认最小分区数量3、默认实际分区数量三、Spark分区器。

2023-06-09 11:39:12 169

原创 Spark大数据处理讲课笔记4.6 Spark SQL数据源 - JDBC

若希望查询部分数据或多表关联查询,则可以使用SQL查询的FROM子句中有效的任何内容,例如放入括号中的子查询。当需要指定partitionColumn属性时,可以使用dbtable属性指定子查询,并使用子查询的别名对分区列进行限定。Spark SQL还可以使用JDBC API从其他关系型数据库读取数据,返回的结果仍然是一个DataFrame,可以很容易地在Spark SQL中处理,或者与其他数据源进行连接查询。执行上述命令(dbtable属性的值是一个子查询,相当于SQL查询中的FROM关键字后的一部分)

2023-06-09 11:16:14 487

原创 Spark大数据处理讲课笔记4.5 Spark SQL数据源 - Hive表

需要注意的是,从Spark2.0.0版本开始,hive-site.xml中的hive.metastore.warehouse.dir属性不再使用了,代替的是使用spark.sql.warehouse.dir指定默认的数据仓库目录。将数据帧数据写入hive表,执行命令:studentDF.select("name", "age").write.mode(SaveMode.Overwrite).saveAsTable("test").enableHiveSupport() // 开启Hive支持。

2023-06-09 11:05:13 440

原创 Spark大数据处理讲课笔记4.3 Spark SQL数据源 - Parquet文件

当写入Parquet文件时,为了提高兼容性,所有列都会自动转换为“可为空”状态。导入SaveMode类后,执行命令:usersdf.select("name", "favorite_color").write.mode(SaveMode.Overwrite)parquet("hdfs://master:9000/result")执行命令:usersdf.select("name", "favorite_color").write.parquet("hdfs://master:9000/result")

2023-06-09 10:58:46 617

原创 Spark大数据处理讲课笔记4.4 Spark SQL数据源 - JSON数据集

创建用户数组:执行命令:val userarr = Array("{'name': 'Mike', 'age': 18}", "{'name': 'Alice', 'age': 30}", "{'name': 'Brown', 'age': 38}")将用户数据集转成用户数据帧,执行命令:val userdf = spark.read.json(userds.rdd)(注意要将数据集转成RDD才能作为json()方法的参数)(三)利用json()方法将数据集转成数据帧。// 将用户数据集转成用户数据帧。

2023-06-09 10:52:32 349

原创 Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

执行命令:peopleDF.select("name", "age").write.format("parquet").save("hdfs://master:9000/datasource/output4") (注意:format("parquet")其实可以省掉的)导入SaveMode类,执行命令:peopledf.select("name").write.mode(SaveMode.Overwrite).format("json").save("hdfs://master:9000/result")

2023-06-09 10:43:05 416

原创 Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

定义一个样例类Student,用于存放数据描述信息(Schema基于样例类创建对象很简单,不需要new关键字,只需要传入相应参数即可创建对象。

2023-05-18 11:44:53 201

原创 Spark大数据处理讲课笔记3.8 Spark RDD典型案例

查看HDFS的结果文件。

2023-05-11 10:47:40 41

原创 Spark大数据处理讲课笔记1.4 掌握Scala运算符

零、本节学习目标理解Scala运算符与方法的等价性掌握Scala常用运算符理解Scala运算符种类一、运算符等价于方法Scala中运算符即方法、方法即运算符。Scala中运算符其实是普通方法调用的另一种表现形式,运算符的使用其实就是隐含地调用对应的方法。(一)运算符即方法op运算符与.op方法调用是等价的,op表示运算符:+、-、*、/……演示x + y与x.+(y)的等价性。

2023-05-11 10:40:37 51

原创 Spark大数据处理讲课笔记1.3 使用Scala集成开发环境

IntelliJ IDEA(简称IDEA)是一款支持Java、Scala和Groovy等语言的开发工具,主要用于企业应用、移动应用和Web应用的开发。IDEA在业界被公认为是很好的Java开发工具,尤其是智能代码助手、代码自动提示、重构、J2EE支持等功能非常强大。在前面,我们都是利用Scala Shell交互式环境来学习Scala基础知识,虽然交互式有快捷的优点,但是要写比较完整的程序,编辑就显得极为不便,为了提高开发效率,我们要学会使用Scala的集成开发环境 - IntelliJ IDEA。

2023-05-11 10:32:13 37

原创 Spark大数据处理讲课笔记1.2 Scala变量与数据类型

零、本节学习目标学会变量声明掌握数据类型初学Scala时,建议读者在Scala命令行模式中操作,最终程序的编写可以在IDE中进行。在Windows的CMD窗口中或CentOS的Shell命令中执行scala命令,即可进入Scala的命令行操作模式。下面我们将在Scala的命令行操作模式中学习Scala的基础知识。一、变量声明(一)简单说明Scala中变量的声明使用关键字val和var。val类似Java中的final变量,也就是常量,一旦初始化将不可修改;

2023-05-11 10:26:37 58

原创 Spark大数据处理讲课笔记3.6 RDD容错机制

零、本讲学习目标了解RDD容错机制理解RDD检查点机制的特点与用处理解共享变量的类别、特点与使用一、RDD容错机制当Spark集群中的某一个节点由于宕机导致数据丢失,则可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式,分别是血统(Lineage)方式和设置检查点(checkpoint)方式。(一)血统方式根据RDD之间依赖关系对丢失数据的RDD进行数据恢复。

2023-05-11 10:12:00 92

原创 Spark大数据处理讲课笔记1.1 搭建Scala开发环境

零、本节学习目标了解Scala语言的特点学会搭建Scala开发环境了解命令行模式与编译模式一、Scala简介(一)Scala概述Scala是Scalable Language的简写,是一门多范式的编程语言,由联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。

2023-05-11 09:02:00 103

原创 Spark大数据处理讲课笔记3.4 理解RDD依赖

懒加载特性二、窄依赖窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用,即OneToOneDependencies。窄依赖的表现一般分为两类,第一类表现为一个父RDD的分区对应于一个子RDD的分区;第二类表现为多个父RDD的分区对应于一个子RDD的分区。一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解,我们通常把窄依赖形象地比喻为独生子女。RDD做map、filter和union算子操作时,是属于窄依赖的第一类表现;

2023-05-08 09:16:18 157

原创 Spark大数据处理讲课笔记3.2 掌握RDD算子

转为转换算子(三)扁平映射算子 - flatMap()1、扁平映射算子功能flatMap()算子与map()算子类似,但是每个传入给函数func的RDD元素会返回0到多个元素,最终会将返回的所有元素合并到一个RDD。2、扁平映射算子案例任务1、统计文件中单词个数读取文件,生成RDD - rdd1,查看其内容和元素个数对于rdd1按空格拆分,做映射,生成新RDD -rdd2对于rdd1按空格拆分,做扁平映射,生成新RDD -rdd3,有一个降维处理的效果。

2023-05-04 09:22:40 147

原创 大数据讲课笔记3.4 Hadoop集群测试

w

2022-12-20 22:42:28 78

原创 大数据讲课笔记4.3 HDFS的Shell操作

w

2022-12-20 22:31:45 79

原创 大数据讲课笔记4.4 使用Java API操作HDFS

w

2022-12-20 22:02:35 113

原创 大数据讲课笔记5.1 初探MapReduce

w

2022-12-20 21:41:27 99

原创 dbeaver

zuoye

2022-12-01 20:25:55 69

原创 【无标题】笔记数据库

笔记

2022-11-10 18:58:17 103

原创 【无标题】

笔记

2022-10-27 21:50:21 430

原创 博客作业.

博客课堂练习

2022-10-20 22:00:02 27

原创 第三次博客笔记

笔记

2022-10-13 18:32:15 25

原创 VMware笔记

linux

2022-09-29 20:48:56 259 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除