懒惰的橘猫-CSDN博客

原创 RDD-自定义分区器案例

Iterator(s"${count}件, ${sum}元")//读入data/order.csv 创建RDD。

2025-05-13 10:18:23 497

原创 sparkSQL读入csv文件写入mysql

/将过滤后的数据保存到mysql数据库的spark中的user表中。//创建一个properties对象,用于存储mysql连接信息。//读出data/user.csv文件的内容。//过滤年龄<18的数据。

2025-05-13 10:17:29 225

原创 sparkSQL连接mysql并添加新数据

/创建一个properties对象,用于存储mysql连接信息。//读取mysql中的数据。//添加一条数据到数据库。

2025-05-13 10:16:25 253

原创转换算子和行动算子的区别

转换算子和行动算子的区别体现在多个方面，以下是两者的对比分析：转换算子（Transformation）：行动算子（Action）：

2025-05-07 15:51:36 189

当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。MEMORY_ONLY_SER：将 RDD 以序列化的 Java 对象形式存储在内存中，相较于 MEMORY_ONLY，序列化后占用的内存空间更小，但读取时需要进行反序列化操作，会带来一定的性能开销。MEMORY_AND_DISK_SER：优先将 RDD 以序列化的 Java 对象形式存储在内存中，内存不足时存储到磁盘上。时，该RDD将会被缓存在计算节点的内存中，并供以后重用。

2025-05-07 15:49:05 189

原创配置Hadoop集群-配置历史和日志服务

比较多，在启动的时候，还要分别进入不同的服务器写不同的命令，比较麻烦。echo " =================== 启动 hadoop集群 ==================="echo " =================== 关闭 hadoop集群 ==================="我们配置了多台服务器，并且每台服务器上运行的任务都不太相同，我们可以使用jps命令来查看每台设备上的运行任务。请注意，你在配置的时候指定哪个节点是历史服务器，就在哪里启动，请不要搞错了。

2025-05-07 15:09:56 577

原创配置Hadoop集群-测试使用

前面我们学习了文件相关的操作，接下来我们看看如何去执行程序，是不是有分布式的效果。上传文件的时候，我们传一个大一点的（>128M），再传一个小一点的。对于大一点的文件，我们要去看看它是否会按128M为单位去拆分这个大文件，而拆分成大文件之后，我们又怎么才能去还原？上传完成之后，我们去查看，很明显大文件被分块了，128M一块，一共有两个块。在我们上一节的hadoop配置中，我们设置了保持文件的目录是/data，所以，我们进入hadoop的按照目录下的data中去看一看。

2025-05-07 14:59:00 837

原创配置Hadoop集群-集群配置

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。刚才我们是在hadoop100这台机器上进行了正确的设置，但是，其他的2台机器也要做相同的配置。Yet Another Resource Negotiator，简称YARN，另一种资源协调者，是Hadoop的资源管理器。但是，我们要把它搭建起起来，就必须要了解它的基本组成，知道它的内部分工。-- 指定ResourceManager的地址-->

2025-05-07 14:46:55 524

原创克隆虚拟机组成集群

得到了hadoop101,hadoop102，由于它们是从hadoop100直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。例如进入hadoop100主机，使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能，它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。

2025-05-07 14:34:41 399

原创配置hosts

yum中的源是指它下载软件的地址。把虚拟机上的软件yum想象成你自己开的一家商场，那么yum的源就是你的供货商。映射到对应的 IP 地址，在 DNS（域名系统）解析之前，系统会先查询 hosts 文件来确定目标主机的 IP 地址。需要管理员权限才能去修改它。浏览器打开了host文件，发现了我们加入的这一行代码，然后，去访问127.0.0.1这个ip地址。网络上的免费而稳定的源有很多，这里我们选择阿里云的源。现在我们可以通过finalshell这个工具来连接我们的远程服务器，不过我们连接主机的时候，需要。

2025-05-07 14:30:39 1140

原创 vi编辑器

（2）按下o：进入到编辑输入模式后，在当前行的后面添加一行空行（当前行的下一行）当我们通过VI命令第一次打开文件的时候，进入的就是命令模式。2. 如果文件已经存在，此时就打开这个文件，进入命令模式。从命令模式切换到底线命令模式，输入: 进入底线命令模式。由于没有鼠标，我们的操作都是用键盘来控制光标的。它是linux的内置命令，所以还是以命令的方式来运行。（1）按下i：进入编辑模式，定位到当前光标前面。来，我们实操一下，如何从命令模式进入输入模式？（3）在输入模式下，按下ESC退回到命令模式。

2025-05-07 14:23:45 315

原创配置Hadoop集群-免密登录

我们希望达成的目标是：希望用户在hadoop100登录到hadoop101时，hadoop101不需要输入密码。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。（4）在hadoop100上，输入ssh hadoop101命令，看看是否可以免密登录？接下来我们去具体看看.ssh相关的文件，以便更加深入的了解它的工作过程。例如：在hadoop100上，也需要去设置针对它自己的免密登录。在hadoop100上登录hadoop101，验证效果。

2025-05-06 11:39:52 476

原创 spark-shell中写代码

Resilient Distributed Dataset 叫做弹性分布式数据集，是Spark中最基本的数据抽象，是分布式计算的实现载体，代表一个不可变，可分区，里面的元素并行计算的集合。类用于配置 Spark 应用程序的各种参数。通过 SparkConf 类，你可以设置应用程序的名称、运行模式（如本地模式、集群模式）、资源分配（如内存、CPU 核心数）等。- Distributed: 分布式存储的，表示数据是存放在不同的机器上的。：集合中的数据可以被并行的计算处理，每个分区数据被一个Task任务处理。

2025-05-06 11:34:01 228

原创 RDD算子

【代码】RDD算子。

2025-05-06 11:30:53 130

原创 RDD中的转换算子1

4.reduceByKey:键值对的数据(word,1),(hell,1)3.flatMap：flat(扁平化) + map(映射)学习spark RDD中的转换算子。

2025-05-06 11:28:24 122

原创 RDD案例-数据清洗

3.将过滤后的数据保存到文件中 saveAsTextFile()1.读取数据，读入文本文件 sc.textFile()（1）拆分出年龄 split(",")(1)（2）判断年龄是否为数字，是，保留。2.对于文件中的每一行。

2025-05-06 11:26:52 102

原创 RDD算子-行动算子

1.collect : 把发布在集群中的各个节点上的RDD元素收集，以数组的形式返回。2.count:返回RDD中元素的个数。学习spark RDD中的行动算子。4.foreach:循环遍历。3.reduce：聚合汇总。

2025-05-06 11:24:18 73

原创 RDD算子-转换算子Map

4.reduceByKey:键值对的数据(word,1),(hell,1)3.flatMap：flat(扁平化) + map(映射)学习spark RDD中的转换算子。

2025-05-06 11:22:25 123

原创如何在idea中写spark程序

在项目根目录下建立文件夹input，并穿件两个文本文件：word1.txt, word2.txt。作系统的Scala安装包。选择教材对应的Scala版本:2.13.14。的版本信息，说明安装成功。它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。IDEA中，默认是不支持编写Scala的，需要额外配置一个插件。6.新建Scala类。如果这里没有看到Scala类的选项，就去检查第2步。添加完成之后，刷新Maven，它会帮助我们去下载依赖。作，也是一路默认安装即可。

2025-04-28 21:41:16 384

原创 Spark集群搭建之Yarn模式

进入/opt/module/spart-yarn/sbin，运行： ./start-all.sh 和 ./start-history-server.sh。在输入 echo $PATH回车，出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变。4.修改spark配置。

2025-04-23 15:59:11 1107

原创配置spark

然后tar -zxvf 你的spark安装包的完整名字 -C /opt/module，进行解压。例如我的spark完整名字是spark-3.1.1-bin-hadoop3.2.tgz，所以我要输入的命令是。在输入 echo $PATH回车，出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变量了。自己新建一个存放修改spark环境变量的文件，例如我的是my_env.sh，在里面添加配置的内容。2.配置spark的环境变量。

2025-04-22 10:15:59 420

原创 spark和Hadoop之间的对比和联系

分布式存储与离线批处理的基础框架，核心组件包括HDFS（存储）和MapReduce（计算），适合海量数据的低成本存储及离线处理（如日志分析、ETL）。：通过DAG（有向无环图）优化任务调度，减少磁盘I/O，速度通常比Hadoop快10-100倍，适合实时或迭代计算（如机器学习、图计算）。：专注于高效计算的分布式引擎，支持批处理、实时流处理、机器学习等多场景，核心基于内存计算和弹性分布式数据集（RDD）。：依赖磁盘存储，任务分Map和Reduce两阶段，中间结果需写入HDFS，导致I/O开销大、速度较慢。

2025-04-22 08:24:51 510

原创配置HADOOP_HOME环境变量和maven_HOME环境变量

注意：变量值要“浏览目录”选择你存放hadoop的文件和maven的文件。5.在“系统变量”里双击Path”，在里面新建两个变量。4.在“系统变量”下新建两个系统变量。1.右击此电脑，选择“属性”2.选择“高级系统配置”3.选择“环境变量”

2025-04-15 09:21:04 473

原创 mapreduce工作原理

MapReduce 是一种分布式计算模型，用于处理大规模数据集。它的核心思想是将一个复杂的计算任务分解为多个简单的任务（Map 和 Reduce），并在分布式集群上并行执行。

2025-04-02 16:06:20 959

原创 hadoop的常用指令

scp：它可以实现服务器与服务器之间的数据拷贝。说明（1）r表示递归拷贝。如果要拷贝的是文件夹，就把文件夹下的内容都拷贝（2）要拷贝的文件路径/名称（3）目的地用户@主机:目的地路径/名称现在的目标是：要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。我们一起看具体操作：1. 启动虚拟机。把hadoop100和hadoop101都启动。2. 进入到hadoop1003. 命令：root。

2025-04-02 16:02:28 924

原创一分钟教你数据清洗

它是指对采集到的原始数据进行预处理，以去除错误、重复、不完整或不一致的数据，使数据符合分析要求的过程。对于reduce函数来说，它的输入参数是：<刷选后的每一行的内容，[null,null,...]>，对于我们的需求来说，并不需要这个阶段。在之前的项目的基础之上，重写去写一个包，并创建两个类：WebLogMapper和WebLogDriver类。map阶段：按行读入内容，对内容进行检查，如果字段的个数少于等于11，就删除这条日志（不保留）<偏移量，每一行的内容> → <刷选后的没一行的内容，null>

2025-04-02 15:50:05 225

原创虚拟机IP配置

linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。配置Windows本地虚拟网卡，让本机也可以访问虚拟机。具体设置为：进入虚拟机，修改对应的IP。（3）设置虚拟机的IP。

2025-02-26 15:50:11 397

原创 vi编辑器的使用方法

**末行模式（Last Line Mode）**：在命令模式下按 `:` 进入，用于执行保存、退出等操作。- **命令模式（Command Mode）**：默认模式，用于执行命令（如移动光标、删除文本等）。- **插入模式（Insert Mode）**：用于输入或编辑文本。- 在命令模式下，按 `p` 将复制的内容粘贴到当前行的下一行。- 在命令模式下，将光标移动到要删除的行，然后按 `dd`。第一次进入 `vi` 编辑器时，默认是**命令模式**。- 输入 `:wq` 或 `:x`：保存并退出。

2025-02-25 11:04:12 266

原创 Linux常用指令

mkdir -p dir1/dir2：递归创建。- touch: 创建空文件或更新文件时间戳。- head/tail: 查看文件开头/结尾。- more/less: 分页查看文件。- tail -f：实时查看日志。- mv: 移动或重命名文件/目录。- chown: 修改文件所有者。- chgrp: 修改文件所属组。- chmod: 修改文件权限。- rm -r：递归删除。- rm -f：强制删除。- cp -r：递归复制。ls -l：详细列表。- rm: 删除文件或目录。- cp: 复制文件或目录。

2025-02-25 08:00:31 139

空空如也

空空如也