自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 kafka的安装与测试

2025-04-21 19:28:33 82

原创 Spark 单机运行环境搭建2

2 ) Spark 是用 Scala 语言开发的,当 SparkShell 启动后就支持运行 Scala 代码。个文件,路径为: /mydata/hello.txt ,下面准备测试在 SparkShell 中读取这个文件。5 )通过上述的测试,说明 Spark 的安装配置是正确的。境,可以按下键盘上的 Ctrl+D 快捷键,或输入“ :quit ”并回车(冒号输入也包含在内)。正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取。

2025-04-16 16:10:59 200

原创 Spark 单机运行环境搭建5

1 )在 Linux 终端执行下面的命令安装 pip 工具,然后查看一下 pip 的版本信息,以及。4)当 pip 包管理工具安装配置好之后,考虑到实际使用时需要访问网络下载软件,下。面将 pip 源改成国内镜像(如阿里云、清华镜像站点等),以加快下载速度。3 )现在可以验证 pip 和 pip3 的设置是否达到了预期目标。和对应管理的 Python 版本。

2025-04-16 16:10:12 217

原创 Spark 单机运行环境搭建4

从 PySparkShell 启动输出的提示信息可以看出, Spark2.4.8 使用的是 Python3.6 ,这。3 )测试完毕,直接按下 Ctrl+D 快捷键,或者输入“ quit() ”就可以退出 PySparkShell。1 )当 Python3.6 运行环境准备就绪,现在就可以启动 PySparkShell 交互编程环境了。2 )类似 SparkShell 读取文件数据的做法,在这里同样测试一下 PySparkShell 中访问。也再次证明之前的配置是正确的。交互编程环境的界面。

2025-04-16 16:08:57 126

原创 Spark 单机运行环境搭建3

python3.6 和 python3.6m ,其中后者在内存分配方式上做了优化,实际使用时任选其一即可。这里准备采取第二种做法,即保留预装的 Python3.8 ,另外安装一个 Python3.6 运。2 )现在面临两个选择,一是将系统默认安装的 Python3.8 卸载替换成 Python3.6 ,这。3 )现在可以开始安装 Python 3.6 ,安装完毕查看一下 Python3.6 的启动程序。注意到,当 Python3.6 成功安装后,在 /usr/bin 目录中会多出两个执行程序,即。

2025-04-16 16:08:30 243

原创 Spark 单机运行环境搭建1

1 )打开一个 Linux 终端,在其中执行以下命令将 Spark 软件包解压到 /usr/local 目录。2 )使用 vi 编辑器修改 /etc/profile 文件,在其中添加有关 Spark 的环境变量设置。2 )接下来开始配置 Spark 运行环境,相比而言 Spark 的配置更简单,所有配置文件均。如果一切正常的话,终端上会输出计算得到的 pi 近似值,这个值不固定,所以每次运。中,并创建一个软链接文件指向 Spark 目录并修改目录的用户属性。行输出的 pi 值是会变化的。

2025-04-16 16:05:17 239

原创 Hadoop 伪分布集群环境搭建6

查看HDFS的WebUI管理页面,如图1-38所示。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址(通过Linux终端命令ip addr可以找到)。考虑到后续还会经常执行一些 Hadoop 的相关命令,为方便起见这里先把 Hadoop 的 bin。需要在新终端重新执行一次 source 命令,除非重启动虚拟机才会全局有效。3 )现在可以测试是否能够正常操作 HDFS ,比如创建目录,上传文件等。,查看YARN 的 WebUI管理页面,如图。

2025-04-16 16:04:17 276

原创 Hadoop 伪分布集群环境搭建5

2 )打开 yarn-site.xml 文件,在其中增加与内存检查相关的设置。内存和 CPU 资源受限,若要求必须有多少内存和 CPU 核的话,一些应用程序可能就无法正常。1 )打开 yarn-env.sh ,找到其中的 JAVA_HOME 变量进行修改。启动,在生产环境这两个参数应去掉。

2025-04-16 16:03:34 159

原创 Hadoop 伪分布集群环境搭建4

3 )修改 HDFS 设置文件 hdfs-site.xml ,指定 NameNode 和 DataNode 的数据保存位置。7 )使用 jps 命令查看 HDFS 的进程是否正常运行, Java 进程列表中应有 NameNode 、1 )切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到。5 )配置文件修改完毕,首次运行之前还要初始化 HDFS 的文件系统,相当于平时的磁盘。这里配置的是单节点,里面默认就是 localhost 即本机,故不用任何修改。

2025-04-16 16:01:02 192

原创 Hadoop 伪分布集群环境搭建3

1 )打开 Linux 终端窗体,先解压缩 hadoop-2.6.5.tar.gz 这个软件包,然后像 JDK 一。2 )将解压的 hadoop-2.6.5 目录的用户和组权限设一下,方便启动 Hadoop 的时候能够。完全控制这个目录,避免因为文件的访问权限导致出现问题。3 )测试 Hadoop 是否能够正常使用。样建立一个软链接文件。

2025-04-16 15:59:52 153

原创 Hadoop 伪分布集群环境搭建2

3 )通过 ssh-copy-id 命令,可以把本地主机的公钥复制到远程主机的 authorized_keys。1 )继续在 Linux 终端窗体中执行以下命令,因为远程登录服务 sshd 已经在运行,因此。4 )在本机通过 ssh 命令再次执行一下远程连接,测试一下是否能够免密登录,正常的。2 )通过 ssh-keygen 生成免密登录所需的密钥信息。先在本机通过ssh命令执行一下远程连接,测试一下是否正常。话此时就不再需要输入密码, ssh 就能够连接成功。文件上,以便双方连接通信时使用。

2025-04-16 15:59:11 112

原创 Hadoop 伪分布集群环境搭建1

1 )打开一个 Linux 终端,在其中执行以下命令,将 JDK 解压缩到 /usr/local 目录中,3 )保存退出 vi 编辑器,回到 Linux 终端测试一下 JDK 的配置是否正常。4 ) JDK 安装完毕,最好重新启动一下 Ubuntu20.04 虚拟机,这样设置的环境变量就会。2 )修改 /etc/profile 文件,在其中添加有关 JDK 的环境变量设置。信息,说明 JDK 的配置是正确的, JDK 的安装也就完成了。在 Linux 系统全局生效。

2025-04-16 15:57:42 167

原创 MobaXterm 远程连接工具

的窗体中,勾选“ Do not show this message again ”(不再显示本信息),然后点击 No 不。个窗体列出了 MobaXterm 支持的各种远程连接类型,点击选择其中的第一项 SSH 图标,输入。可自动连接,或者在保存的连接信息上点击鼠标右键,选择弹出菜单中的 Editsession (编。输入连接所用帐户 spark 的密码(密码也是 spark )并回车,在弹出的是否要保存密码。虚拟机的 IP 地址,然后指定登录所用的帐号 spark ,再点击OK即可。

2025-04-16 15:53:02 1024

原创 Vi 编辑 器

Linux 操作系统在安装后,只需在 Linux 终端窗体中输入“ vi ”或“ vim ”命令就能启。接打开并显示文件的具体内容,比如“ vi hello.txt ”。如果指定的文件不存在,此时就相。下面是最常用的一些 Vi 编辑器分类命令,掌握好这些最基本的 Vi 编辑命令很重要,如。vi 编辑器初始界面如图 所示。如果在 vi 命令后面带一个文件名的话,那么就会直。当于创建一个新的文件进行编辑。

2025-04-16 15:51:16 225

原创 Ubuntu 基本配置

5 ) Windows 自带的记事本是一个简单易用的文字编辑器,在 Ubuntu20.04 的桌面环境。当 vim 安装完毕,在终端输入 vi 或 vim 命令,实际启动的。4 )输入下面的命令,将 Ubuntu20.04 自带的防火墙禁用掉,避免在远程终端连接时出。3)继续输入下面的命令安装 vim,即 vi 编辑器的增强版,它支持一些更丰富的功能,此外,还可以通过终端命令启动编辑器,在使用这个图形化的文本编辑器打开或保存文件时,若编辑的文本文件对当前 Linux。就是这个增强版的 vim 编辑器。

2025-04-16 15:50:10 195

原创 Ubuntu 虚拟机的安装

15)点击 Ubuntu20.04 桌面右上角的电源图标,选择“Power Off/Log Out”下面的“Power。9)稍候几分钟的时间进行安装。14)Linux 终端窗体启动后,在左侧任务栏的“Linux 终端”图标上点击鼠标右键,选。设置,包括网络在线帐号设置、更新设置、问题提交、隐私设置等,直接点击右上角的“Skip”3)在安装来源设置窗体,选择“安装程序光盘映像文件(iso)”,点击右侧的浏览按钮,4)在简易安装信息的窗体中,将全名、用户名、密码、确认等几项均设为“spark”,

2025-04-16 15:48:51 331

原创 RDD的创建和转换操作

2)在其中输入下面的代码,可以查看 RDD 类包含的功能方法(在 Spark 中有一个专门的术语,称为。1)使用 parallelize()方法从普通集合元素创建 RDD。

2025-03-06 23:00:07 685

原创 Spark 大数据环境搭建

的WebUI管理页面,如图1-38所示。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址(通过Linux终端命令ip addr可以找到)。15)点击 Ubuntu20.04 桌面右上角的电源图标,选择“Power Off/Log Out”下面的“Power。14)Linux 终端窗体启动后,在左侧任务栏的“Linux 终端”图标上点击鼠标右键,选。17)在虚拟机设置窗体,调整一下内存和处理器的数量,比如 4GB 内存和 2 个处理器。

2025-03-01 11:04:06 1928

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除