小白不懂程序-CSDN博客

原创报错：java.sql.SQLException: Access denied for user ‘root‘@‘localhost‘ (using password: YES)

因为yml或yaml对数据类型有一定要求，所以，如果你的密码是数字的话，就可能造成yml或yaml解析错误，从而导致数据库密码错误问题。

2023-11-22 09:25:09 2932

原创大数据实时处理4.2 Spark SQL数据源 - 基本操作

使用format()方法可以手动指定数据源。数据源需要使用完全限定名（例如），但对于Spark SQL的内置数据源，也可以使用它们的缩写名（JSON、Parquet、JDBC、ORC、Libsvm、CSV、Text）。通过手动指定数据源，可以将DataFrame数据集保存为不同的文件格式或者在不同的文件格式之间转换。在指定数据源的同时，可以使用option()方法向指定的数据源传递所需参数。例如，向JDBC数据源传递账号、密码等参数。

2023-05-25 11:51:01 403 1

原创大数据实时处理4.1 Spark SQL概述、数据帧与数据集

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合，但与RDD不同，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。

2023-05-18 11:48:31 664

原创大数据实时处理3.8 Spark RDD典型案例

RDD经典案例

2023-05-11 11:14:51 492

原创大数据实时处理3.6 RDD容错机制

会单独启动一个任务将标记为检查点的RDD的数据写入文件系统，如果RDD的数据已经持久化到了内存，将直接从内存中读取数据，然后进行写入，提高数据写入效率，否则需要重复计算一遍RDD的数据。val rdd = sc.makeRDD(Array(1, 2, 3, 4, 5)) // 创建RDD。rdd.foreach(x => myacc.add(x)) // 在Executor里向累加器添加值。println("sum = " + myacc.value) // 在Driver里输出累加结果。

2023-05-11 10:29:03 132

原创大数据实时处理 3.5 RDD持久化机制

若RDD3没有持久化保存，则每次对RDD3进行操作时都需要从textFile()开始计算，将文件数据转化为RDD1，再转化为RDD2，最终才得到RDD3。* 在第一次行动操作时持久化RDD，并设置存储级别，当RDD从来没有设置过存储级别时才能使用该方法。()方法只是将该RDD标记为持久化，当执行行动操作时才会对标记为持久化的RDD进行持久化操作。// 第二次行动算子，直接利用rdd2的持久化数据进行操作，无须从头进行计算。// 第一次行动算子，对标记为持久化的RDD进行不同级别的持久化操作。

2023-05-08 19:09:48 265

原创大数据实时处理 3.3 掌握RDD分区

在有些情况下，使用Spark自带的分区器满足不了特定的需求。例如，某学生有以下3科成绩数据：科目成绩chinese98math88english96现需要将每一科成绩单独分配到一个分区中，然后将3科成绩输出到HDFS的指定目录（每个分区对应一个结果文件），此时就需要对数据进行自定义分区。创建类/*** 功能：科目分区器* 作者：柠檬* 日期：2023年05月4日*//*** 取得分区数量* @return 分区数量*//**

2023-05-07 19:52:27 185

原创大数据实时处理3.2 掌握RDD算子

了解RDD的处理过程掌握转换算子的使用掌握行动算子的使用

2023-04-20 11:55:23 318

原创大数据实时处理 3.1 掌握RDD的创建

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，RDD）。

2023-04-20 08:43:41 540

原创大数据实时处理 2.4 IDEA开发词频统计项目

执行命令：spark-submit --master spark://master:7077 --class net.huawei.rdd.WordCount SparkRDDWordCount.jar。.flatMap(_.split(" ")) // 扁平化映射，得到单词数组。.flatMap(_.split(" ")) // 扁平化映射，得到单词数组。.map((_, 1)) // 针对每个单词得到二元组（word, 1).map((_, 1)) // 针对每个单词得到二元组（word, 1)

2023-04-13 11:36:36 308

原创问题解决: 报错：什么什么as process 29918. Stop it first. 在FinalShell的master虚拟机上安装配置Spark时启动Hadoop

其实简单说，就是我们重复启动啦！stop-dfs.sh # 关闭。start-dfs.sh # 重启。那我们就想，这是为什么呢？叮当~本次分享结束~

2023-04-02 20:04:50 433

原创大数据实时处理 2.2 搭建Spark开发环境

Executor为应用程序运行在Worker节点上的一个进程，由Worker进程启动，负责执行具体的Task，并存储数据在内存或磁盘上。方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。集群的主节点称为Master节点，在集群启动时会在主节点启动一个名为Master的守护进程，类似YARN集群的ResourceManager；命令，查看启动的进程。

2023-04-02 17:49:04 896 1

原创大数据实时处理 2.1 初识Spark

Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。

2023-04-01 09:05:40 605

原创大数据实时处理 1.7 掌握Scala类、对象、抽象类与特质

对象是类的具体实例，类是抽象的，不占用内存，而对象是具体的，占用存储空间。面向对象三大特性之一：封装（encapsulation） - 封装数据和操作Scala中一个简单的类定义是使用关键字class，类名首字母必须大写。

2023-03-27 09:54:12 188

原创大数据实时处理 1.6 Scala数据结构

定义数组时初始化数据自动推断数组类型手动指定数据类型先定义，后赋值避免数组下标越界错误。

2023-03-06 14:40:33 581

原创大数据实时处理 1.5 掌握Scala内建控制结构

Scala提供的控制结构并不算多，因为在中，可以自己开发出各种功能的控制结构，所以Scala提供的原生控制结构仅仅够用为止。

2023-02-24 10:42:58 412

原创大数据实时处理 1.4 掌握Scala运算符

掌握Scala运算符

2023-02-23 11:07:36 341 3

原创大数据实时处理 1.3 使用Scala集成开发环境

IDEA中的Scala安装插件。

2023-02-20 19:58:34 166

原创大数据实时处理 1.2 Scala变量与数据类型

定义变量需要初始化，否则会报错。注意：Java里可以先声明变量，然后再赋值定义变量时可以不指定数据类型，系统会根据初始化值自动推断变量的类型。注意：Java声明变量必须指定类型。

2023-02-20 19:26:07 146

原创大数据实时处理 1.1搭建Scala开发环境

Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

2023-02-13 15:43:33 828 2

原创 2022年秋期学习《数据清洗预处理》学期总结

学期总结

2022-12-20 23:33:27 207

原创解决问题 - 错误：不支持发行版本 5 无效的目标发行版：11

打开设置对话框，查看Java编译器等级。无效的目标发行版：11。

2022-12-20 22:31:10 204

原创初探MapReduce

初探MapReduce

2022-12-08 20:41:45 401

原创使用Java API操作HDFS

Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。HDFS Shell本质上就是对Java API的应用，通过编程的形式操作HDFS，其核心是使用HDFS提供的Java API构造一个访问客户端对象，然后通过客户端对象对HDFS上的文件进行操作（增、删、改、查）。

2022-11-30 21:49:48 2968

原创 HDFS的shell操作

Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。文件系统（FS）Shell包含了各种的类Shell的命令，可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。

2022-11-16 20:42:46 4626

转载 HDFS架构和原理

回顾本节课所讲的内容，并通过提问的方式引导学生解答问题并给予指导。第二课时。

2022-11-11 09:59:01 149

转载 HDFS基本概念

目录零、学习目标一、导入新课二、新课讲解（一）HFDS的演变（二）HDFS的基本概念 1、NameNode（名称节点）2、DataNode（数据节点）3、Block（数据块）4、Rack（机架）5、Metadata（元数据）（三）HDFS的特点1、HDFS的优点（1）高容错性（2）适合批处理（3）适合大数据处理（4）流式数据访问（5）可构建在廉价机器上2、HDFS的缺点（1）不适合低延时数据访问（2）无法高效的对大量小文件进行存储（3）并发写入、文件随机修改三、归纳总结四、上机操作———————————

2022-11-11 08:55:55 1091

m0_73706260的博客