NIhe__gui-CSDN博客

2 ） Spark 是用 Scala 语言开发的，当 SparkShell 启动后就支持运行 Scala 代码。个文件，路径为： /mydata/hello.txt ，下面准备测试在 SparkShell 中读取这个文件。5 ）通过上述的测试，说明 Spark 的安装配置是正确的。境，可以按下键盘上的 Ctrl+D 快捷键，或输入“ :quit ”并回车（冒号输入也包含在内）。正常的话，运行完毕就会打印输出 hello.txt 文件中的内容，说明 Spark 可以正常读取。

2025-04-16 16:10:59 200

原创 Spark 单机运行环境搭建5

1 ）在 Linux 终端执行下面的命令安装 pip 工具，然后查看一下 pip 的版本信息，以及。4）当 pip 包管理工具安装配置好之后，考虑到实际使用时需要访问网络下载软件，下。面将 pip 源改成国内镜像（如阿里云、清华镜像站点等），以加快下载速度。3 ）现在可以验证 pip 和 pip3 的设置是否达到了预期目标。和对应管理的 Python 版本。

2025-04-16 16:10:12 217

原创 Spark 单机运行环境搭建4

从 PySparkShell 启动输出的提示信息可以看出， Spark2.4.8 使用的是 Python3.6 ，这。3 ）测试完毕，直接按下 Ctrl+D 快捷键，或者输入“ quit() ”就可以退出 PySparkShell。1 ）当 Python3.6 运行环境准备就绪，现在就可以启动 PySparkShell 交互编程环境了。2 ）类似 SparkShell 读取文件数据的做法，在这里同样测试一下 PySparkShell 中访问。也再次证明之前的配置是正确的。交互编程环境的界面。

2025-04-16 16:08:57 126

原创 Spark 单机运行环境搭建3

python3.6 和 python3.6m ，其中后者在内存分配方式上做了优化，实际使用时任选其一即可。这里准备采取第二种做法，即保留预装的 Python3.8 ，另外安装一个 Python3.6 运。2 ）现在面临两个选择，一是将系统默认安装的 Python3.8 卸载替换成 Python3.6 ，这。3 ）现在可以开始安装 Python 3.6 ，安装完毕查看一下 Python3.6 的启动程序。注意到，当 Python3.6 成功安装后，在 /usr/bin 目录中会多出两个执行程序，即。

2025-04-16 16:08:30 243

原创 Spark 单机运行环境搭建1

1 ）打开一个 Linux 终端，在其中执行以下命令将 Spark 软件包解压到 /usr/local 目录。2 ）使用 vi 编辑器修改 /etc/profile 文件，在其中添加有关 Spark 的环境变量设置。2 ）接下来开始配置 Spark 运行环境，相比而言 Spark 的配置更简单，所有配置文件均。如果一切正常的话，终端上会输出计算得到的 pi 近似值，这个值不固定，所以每次运。中，并创建一个软链接文件指向 Spark 目录并修改目录的用户属性。行输出的 pi 值是会变化的。

2025-04-16 16:05:17 239

原创 Hadoop 伪分布集群环境搭建6

查看HDFS的WebUI管理页面，如图1-38所示。如果是在Windows的浏览器访问，则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址（通过Linux终端命令ip addr可以找到）。考虑到后续还会经常执行一些 Hadoop 的相关命令，为方便起见这里先把 Hadoop 的 bin。需要在新终端重新执行一次 source 命令，除非重启动虚拟机才会全局有效。3 ）现在可以测试是否能够正常操作 HDFS ，比如创建目录，上传文件等。，查看YARN 的 WebUI管理页面，如图。

2025-04-16 16:04:17 276

原创 Hadoop 伪分布集群环境搭建5

2 ）打开 yarn-site.xml 文件，在其中增加与内存检查相关的设置。内存和 CPU 资源受限，若要求必须有多少内存和 CPU 核的话，一些应用程序可能就无法正常。1 ）打开 yarn-env.sh ，找到其中的 JAVA_HOME 变量进行修改。启动，在生产环境这两个参数应去掉。

2025-04-16 16:03:34 159

原创 Hadoop 伪分布集群环境搭建4

3 ）修改 HDFS 设置文件 hdfs-site.xml ，指定 NameNode 和 DataNode 的数据保存位置。7 ）使用 jps 命令查看 HDFS 的进程是否正常运行， Java 进程列表中应有 NameNode 、1 ）切换到 Hadoop 的配置文件目录，先修改其中的 hadoop-env.sh 运行环境文件，找到。5 ）配置文件修改完毕，首次运行之前还要初始化 HDFS 的文件系统，相当于平时的磁盘。这里配置的是单节点，里面默认就是 localhost 即本机，故不用任何修改。

2025-04-16 16:01:02 192

原创 Hadoop 伪分布集群环境搭建3

1 ）打开 Linux 终端窗体，先解压缩 hadoop-2.6.5.tar.gz 这个软件包，然后像 JDK 一。2 ）将解压的 hadoop-2.6.5 目录的用户和组权限设一下，方便启动 Hadoop 的时候能够。完全控制这个目录，避免因为文件的访问权限导致出现问题。3 ）测试 Hadoop 是否能够正常使用。样建立一个软链接文件。

2025-04-16 15:59:52 153

原创 Hadoop 伪分布集群环境搭建2

3 ）通过 ssh-copy-id 命令，可以把本地主机的公钥复制到远程主机的 authorized_keys。1 ）继续在 Linux 终端窗体中执行以下命令，因为远程登录服务 sshd 已经在运行，因此。4 ）在本机通过 ssh 命令再次执行一下远程连接，测试一下是否能够免密登录，正常的。2 ）通过 ssh-keygen 生成免密登录所需的密钥信息。先在本机通过ssh命令执行一下远程连接，测试一下是否正常。话此时就不再需要输入密码， ssh 就能够连接成功。文件上，以便双方连接通信时使用。

2025-04-16 15:59:11 112

原创 Hadoop 伪分布集群环境搭建1

1 ）打开一个 Linux 终端，在其中执行以下命令，将 JDK 解压缩到 /usr/local 目录中，3 ）保存退出 vi 编辑器，回到 Linux 终端测试一下 JDK 的配置是否正常。4 ） JDK 安装完毕，最好重新启动一下 Ubuntu20.04 虚拟机，这样设置的环境变量就会。2 ）修改 /etc/profile 文件，在其中添加有关 JDK 的环境变量设置。信息，说明 JDK 的配置是正确的， JDK 的安装也就完成了。在 Linux 系统全局生效。

2025-04-16 15:57:42 167

原创 MobaXterm 远程连接工具

的窗体中，勾选“ Do not show this message again ”（不再显示本信息），然后点击 No 不。个窗体列出了 MobaXterm 支持的各种远程连接类型，点击选择其中的第一项 SSH 图标，输入。可自动连接，或者在保存的连接信息上点击鼠标右键，选择弹出菜单中的 Editsession （编。输入连接所用帐户 spark 的密码（密码也是 spark ）并回车，在弹出的是否要保存密码。虚拟机的 IP 地址，然后指定登录所用的帐号 spark ，再点击OK即可。

2025-04-16 15:53:02 1024

原创 Vi 编辑器

Linux 操作系统在安装后，只需在 Linux 终端窗体中输入“ vi ”或“ vim ”命令就能启。接打开并显示文件的具体内容，比如“ vi hello.txt ”。如果指定的文件不存在，此时就相。下面是最常用的一些 Vi 编辑器分类命令，掌握好这些最基本的 Vi 编辑命令很重要，如。vi 编辑器初始界面如图所示。如果在 vi 命令后面带一个文件名的话，那么就会直。当于创建一个新的文件进行编辑。

2025-04-16 15:51:16 225

原创 Ubuntu 基本配置

5 ） Windows 自带的记事本是一个简单易用的文字编辑器，在 Ubuntu20.04 的桌面环境。当 vim 安装完毕，在终端输入 vi 或 vim 命令，实际启动的。4 ）输入下面的命令，将 Ubuntu20.04 自带的防火墙禁用掉，避免在远程终端连接时出。3）继续输入下面的命令安装 vim，即 vi 编辑器的增强版，它支持一些更丰富的功能，此外，还可以通过终端命令启动编辑器，在使用这个图形化的文本编辑器打开或保存文件时，若编辑的文本文件对当前 Linux。就是这个增强版的 vim 编辑器。

2025-04-16 15:50:10 195

原创 Ubuntu 虚拟机的安装

15）点击 Ubuntu20.04 桌面右上角的电源图标，选择“Power Off/Log Out”下面的“Power。9）稍候几分钟的时间进行安装。14）Linux 终端窗体启动后，在左侧任务栏的“Linux 终端”图标上点击鼠标右键，选。设置，包括网络在线帐号设置、更新设置、问题提交、隐私设置等，直接点击右上角的“Skip”3）在安装来源设置窗体，选择“安装程序光盘映像文件(iso)”，点击右侧的浏览按钮，4）在简易安装信息的窗体中，将全名、用户名、密码、确认等几项均设为“spark”，

2025-04-16 15:48:51 331

原创 RDD的创建和转换操作

2）在其中输入下面的代码，可以查看 RDD 类包含的功能方法（在 Spark 中有一个专门的术语，称为。1）使用 parallelize()方法从普通集合元素创建 RDD。

2025-03-06 23:00:07 685

原创 Spark 大数据环境搭建

的WebUI管理页面，如图1-38所示。如果是在Windows的浏览器访问，则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址（通过Linux终端命令ip addr可以找到）。15）点击 Ubuntu20.04 桌面右上角的电源图标，选择“Power Off/Log Out”下面的“Power。14）Linux 终端窗体启动后，在左侧任务栏的“Linux 终端”图标上点击鼠标右键，选。17）在虚拟机设置窗体，调整一下内存和处理器的数量，比如 4GB 内存和 2 个处理器。

2025-03-01 11:04:06 1928