自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(88)
  • 收藏
  • 关注

原创 RDD-自定义分区器

/创建SparkContext。

2025-05-13 10:19:04 163

原创 RDD-自定义分区器案例

Iterator(s"${count}件, ${sum}元")//读入data/order.csv 创建RDD。

2025-05-13 10:18:23 497

原创 sparkSQL读入csv文件写入mysql

/将过滤后的数据保存到mysql数据库的spark中的user表中。//创建一个properties对象,用于存储mysql连接信息。//读出data/user.csv文件的内容。//过滤年龄<18的数据。

2025-05-13 10:17:29 225

原创 sparkSQL连接mysql并添加新数据

/创建一个properties对象,用于存储mysql连接信息。//读取mysql中的数据。//添加一条数据到数据库。

2025-05-13 10:16:25 253

原创 转换算子和行动算子的区别

转换算子和行动算子的区别体现在多个方面,以下是两者的对比分析:转换算子(Transformation):行动算子(Action):

2025-05-07 15:51:36 189

原创 Spark缓存

当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。MEMORY_ONLY_SER:将 RDD 以序列化的 Java 对象形式存储在内存中,相较于 MEMORY_ONLY,序列化后占用的内存空间更小,但读取时需要进行反序列化操作,会带来一定的性能开销。MEMORY_AND_DISK_SER:优先将 RDD 以序列化的 Java 对象形式存储在内存中,内存不足时存储到磁盘上。时,该RDD将会被缓存在计算节点的内存中,并供以后重用。

2025-05-07 15:49:05 189

原创 配置Hadoop集群-配置历史和日志服务

比较多,在启动的时候,还要分别进入不同的服务器写不同的命令,比较麻烦。echo " =================== 启动 hadoop集群 ==================="echo " =================== 关闭 hadoop集群 ==================="我们配置了多台服务器,并且每台服务器上运行的任务都不太相同,我们可以使用jps命令来查看每台设备上的运行任务。请注意,你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。

2025-05-07 15:09:56 577

原创 配置Hadoop集群-测试使用

前面我们学习了文件相关的操作,接下来我们看看如何去执行程序,是不是有分布式的效果。上传文件的时候,我们传一个大一点的(>128M),再传一个小一点的。对于大一点的文件,我们要去看看它是否会按128M为单位去拆分这个大文件,而拆分成大文件之后,我们又怎么才能去还原?上传完成之后,我们去查看,很明显大文件被分块了,128M一块,一共有两个块。在我们上一节的hadoop配置中,我们设置了保持文件的目录是/data,所以,我们进入hadoop的按照目录下的data中去看一看。

2025-05-07 14:59:00 837

原创 配置Hadoop集群-集群配置

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。刚才我们是在hadoop100这台机器上进行了正确的设置,但是,其他的2台机器也要做相同的配置。Yet Another Resource Negotiator,简称YARN,另一种资源协调者,是Hadoop的资源管理器。但是,我们要把它搭建起起来,就必须要了解它的基本组成,知道它的内部分工。-- 指定ResourceManager的地址-->

2025-05-07 14:46:55 524

原创 克隆虚拟机组成集群

得到了hadoop101,hadoop102,由于它们是从hadoop100直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。例如进入hadoop100主机,使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能,它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。

2025-05-07 14:34:41 399

原创 配置hosts

yum中的源是指它下载软件的地址。把虚拟机上的软件yum想象成你自己开的一家商场,那么yum的源就是你的供货商。映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。需要管理员权限才能去修改它。浏览器打开了host文件,发现了我们加入的这一行代码,然后,去访问127.0.0.1这个ip地址。网络上的免费而稳定的源有很多,这里我们选择阿里云的源。现在我们可以通过finalshell这个工具来连接我们的远程服务器,不过我们连接主机的时候,需要。

2025-05-07 14:30:39 1140

原创 vi编辑器

(2)按下o:进入到编辑输入模式后,在当前行的后面添加一行空行(当前行的下一行)当我们通过VI命令第一次打开文件的时候,进入的就是命令模式。2. 如果文件已经存在,此时就打开这个文件,进入命令模式。从命令模式切换到底线命令模式,输入: 进入底线命令模式。由于没有鼠标,我们的操作都是用键盘来控制光标的。它是linux的内置命令,所以还是以命令的方式来运行。(1)按下i: 进入编辑模式,定位到当前光标前面。来,我们实操一下,如何从命令模式进入输入模式?(3)在输入模式下,按下ESC退回到命令模式。

2025-05-07 14:23:45 315

原创 配置Hadoop集群-免密登录

我们希望达成的目标是:希望用户在hadoop100登录到hadoop101时,hadoop101不需要输入密码。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。(4)在hadoop100上,输入ssh hadoop101命令,看看是否可以免密登录?接下来我们去具体看看.ssh相关的文件,以便更加深入的了解它的工作过程。例如: 在hadoop100上,也需要去设置针对它自己的免密登录。在hadoop100上登录hadoop101,验证效果。

2025-05-06 11:39:52 476

原创 spark-shell中写代码

Resilient Distributed Dataset 叫做弹性分布式数据集,是Spark中最基本的数据抽象,是分布式计算的实现载体,代表一个不可变,可分区,里面的元素并行计算的集合。类用于配置 Spark 应用程序的各种参数。通过 SparkConf 类,你可以设置应用程序的名称、运行模式(如本地模式、集群模式)、资源分配(如内存、CPU 核心数)等。- Distributed: 分布式存储的,表示数据是存放在不同的机器上的。:集合中的数据可以被并行的计算处理,每个分区数据被一个Task任务处理。

2025-05-06 11:34:01 228

原创 RDD算子

【代码】RDD算子。

2025-05-06 11:30:53 130

原创 RDD中的转换算子1

4.reduceByKey:键值对的数据(word,1),(hell,1)3.flatMap:flat(扁平化) + map(映射)学习spark RDD中的转换算子。

2025-05-06 11:28:24 122

原创 RDD案例-数据清洗

3.将过滤后的数据保存到文件中 saveAsTextFile()1.读取数据,读入文本文件 sc.textFile()(1)拆分出年龄 split(",")(1)(2)判断年龄是否为数字,是,保留。2.对于文件中的每一行。

2025-05-06 11:26:52 102

原创 RDD算子-行动算子

1.collect : 把发布在集群中的各个节点上的RDD元素收集,以数组的形式返回。2.count:返回RDD中元素的个数。学习spark RDD中的行动算子。4.foreach:循环遍历。3.reduce:聚合汇总。

2025-05-06 11:24:18 73

原创 RDD算子-转换算子Map

4.reduceByKey:键值对的数据(word,1),(hell,1)3.flatMap:flat(扁平化) + map(映射)学习spark RDD中的转换算子。

2025-05-06 11:22:25 123

原创 如何在idea中写spark程序

在项目根目录下建立文件夹input,并穿件两个文本文件:word1.txt, word2.txt。作系统的Scala安装包。选择教材对应的Scala版本:2.13.14。的版本信息,说明安装成功。它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。IDEA中,默认是不支持编写Scala的,需要额外配置一个插件。6.新建Scala类。如果这里没有看到Scala类的选项,就去检查第2步。添加完成之后,刷新Maven,它会帮助我们去下载依赖。作,也是一路默认安装即可。

2025-04-28 21:41:16 384

原创 Spark集群搭建之Yarn模式

进入/opt/module/spart-yarn/sbin,运行: ./start-all.sh 和 ./start-history-server.sh。在输入 echo $PATH回车,出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变。4.修改spark配置。

2025-04-23 15:59:11 1107

原创 配置spark

然后tar -zxvf 你的spark安装包的完整名字 -C /opt/module,进行解压。例如我的spark完整名字是spark-3.1.1-bin-hadoop3.2.tgz,所以我要输入的命令是。在输入 echo $PATH回车,出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变量了。自己新建一个存放修改spark环境变量的文件,例如我的是my_env.sh,在里面添加配置的内容。2.配置spark的环境变量。

2025-04-22 10:15:59 420

原创 spark和Hadoop之间的对比和联系

分布式存储与离线批处理的基础框架,核心组件包括HDFS(存储)和MapReduce(计算),适合海量数据的低成本存储及离线处理(如日志分析、ETL)。:通过DAG(有向无环图)优化任务调度,减少磁盘I/O,速度通常比Hadoop快10-100倍,适合实时或迭代计算(如机器学习、图计算)。:专注于高效计算的分布式引擎,支持批处理、实时流处理、机器学习等多场景,核心基于内存计算和弹性分布式数据集(RDD)。:依赖磁盘存储,任务分Map和Reduce两阶段,中间结果需写入HDFS,导致I/O开销大、速度较慢。

2025-04-22 08:24:51 510

原创 配置HADOOP_HOME环境变量和maven_HOME环境变量

注意:变量值要“浏览目录”选择你存放hadoop的文件和maven的文件。5.在“系统变量”里双击Path”,在里面新建两个变量。4.在“系统变量”下新建两个系统变量。1.右击此电脑,选择“属性”2.选择“高级系统配置”3.选择“环境变量”

2025-04-15 09:21:04 473

原创 mapreduce工作原理

MapReduce 是一种分布式计算模型,用于处理大规模数据集。它的核心思想是将一个复杂的计算任务分解为多个简单的任务(Map 和 Reduce),并在分布式集群上并行执行。

2025-04-02 16:06:20 959

原创 hadoop的常用指令

scp:它可以实现服务器与服务器之间的数据拷贝。说明(1)r表示递归拷贝。如果要拷贝的是文件夹,就把文件夹下的内容都拷贝(2)要拷贝的文件路径/名称(3)目的地用户@主机:目的地路径/名称现在的目标是:要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。我们一起看具体操作:1. 启动虚拟机。把hadoop100和hadoop101都启动。2. 进入到hadoop1003. 命令:root。

2025-04-02 16:02:28 924

原创 一分钟教你数据清洗

它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。对于reduce函数来说,它的输入参数是:<刷选后的每一行的内容,[null,null,...]>,对于我们的需求来说,并不需要这个阶段。在之前的项目的基础之上,重写去写一个包,并创建两个类:WebLogMapper和WebLogDriver类。map阶段:按行读入内容,对内容进行检查,如果字段的个数少于等于11,就删除这条日志(不保留)<偏移量,每一行的内容> → <刷选后的没一行的内容,null>

2025-04-02 15:50:05 225

原创 虚拟机IP配置

linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。配置Windows本地虚拟网卡,让本机也可以访问虚拟机。具体设置为:进入虚拟机,修改对应的IP。(3)设置虚拟机的IP。

2025-02-26 15:50:11 397

原创 vi编辑器的使用方法

**末行模式(Last Line Mode)**:在命令模式下按 `:` 进入,用于执行保存、退出等操作。- **命令模式(Command Mode)**:默认模式,用于执行命令(如移动光标、删除文本等)。- **插入模式(Insert Mode)**:用于输入或编辑文本。- 在命令模式下,按 `p` 将复制的内容粘贴到当前行的下一行。- 在命令模式下,将光标移动到要删除的行,然后按 `dd`。第一次进入 `vi` 编辑器时,默认是**命令模式**。- 输入 `:wq` 或 `:x`:保存并退出。

2025-02-25 11:04:12 266

原创 Linux常用指令

mkdir -p dir1/dir2:递归创建。- touch: 创建空文件或更新文件时间戳。- head/tail: 查看文件开头/结尾。- more/less: 分页查看文件。- tail -f:实时查看日志。- mv: 移动或重命名文件/目录。- chown: 修改文件所有者。- chgrp: 修改文件所属组。- chmod: 修改文件权限。- rm -r:递归删除。- rm -f:强制删除。- cp -r:递归复制。ls -l:详细列表。- rm: 删除文件或目录。- cp: 复制文件或目录。

2025-02-25 08:00:31 139

原创 1分钟教你使用vm虚拟机

4.选择操作系统【Linux】===> 【CentOS-7 7 64 位】(我要创建的是CentOS-7,所以我选择CentOS-7,这里选择你要创建的系统就行了)===> 下一步。7.找到【CD/DVD 】点击使用ISO映像文件 ===> 浏览(选择自己下载的镜像文件,最后点击确定。5. 选择是否更改虚拟机的名字或位置。以下步骤,全部点击“下一步”3.选择“稍后安装操作系统”2.创建虚拟机,选择自定义。

2025-02-19 13:47:04 488

原创 Scala的泛型

【代码】Scala的泛型。

2024-12-11 17:05:04 245

原创 Scala隐式对象

【代码】Scala隐式对象。

2024-12-11 17:04:02 137

原创 Scala隐式参数更改别的参数

【代码】Scala隐式参数更改别的参数。

2024-12-11 16:38:42 404

原创 Scala函数的隐式参数

【代码】Scala函数的隐式参数。

2024-12-11 16:36:49 107

原创 Scala隐式转换校验手机号

【代码】Scala隐式转换校验手机号。

2024-12-09 16:56:22 151

原创 Scala 隐式转换

【代码】Scala 隐式转换。

2024-12-09 16:54:42 281

原创 Scala关于身份证打码的操作

【代码】Scala关于身份证打码的操作。

2024-12-09 15:42:58 114

原创 Scala正则表达式关于手机号打码的操作

【代码】Scala正则表达式关于手机号打码的操作。

2024-12-09 15:41:58 125

原创 Scala正则表达式

【代码】Scala正则表达式。

2024-12-04 16:47:21 451

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除