达梦启云平台中，部署使用SPARK笔记

huzhuy

已于 2022-07-01 17:05:59 修改

阅读量1k

点赞数 1

文章标签：大数据 spark docker kubeless

于 2022-06-24 09:45:58 首次发布

本文链接：https://blog.csdn.net/u011931939/article/details/125430877

版权

在达梦启云平台中SPARK的使用和其他应用的部署有很大不同。我在这记录一下我自己测试过程。

我实验在平台上启动一个SPARK流程，调用Scala编写的jar包，处理数据，处理结果存放在达梦数据库中。jar包spark-demo.jar和待处理文件都存放在HDFS中。达梦数据库DM8已经建立。

首先还是选择应用商店-大数据组件-Spark，页面点击右上角新增。

运行Spark资源最少需要剩余2核2G以上。如下图部署区域还有2.5核11G资源可以调用。

根据spark-demo.jar和HDFS和DM8数据库信息做配置。这些填入配置信息都来自HDFS地址，数据库地址和jar包代码。（根据自己的实际情况填入，完全照超是没用的，主要是要将对应信息填入对应位置。）

应用程序包（jar包）地址：（应用程序包，支持local、hdfs、http方式，我们这用hdfs）

hdfs:/hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/user/team001/spark-demo.jar

应用入口：com.dameng.spark.examples.SparkDemo

运行参数：

参数1.数据文件地址：

hdfs://hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/user/team001/demo.txt

参数2.达梦数据库地址：jdbc:dm://dm8.teamg01.svc:5236

hadoop的配置:（填入自己的hadoop user name 如果不知道一般用root）

hadoop user name：teamname001

core-site.xml 配置：

 <configuration>

      <property>

    <name>fs.defaultFS</name> 
    <value>hdfs://hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/</value>

    </property>

     </configuration>

首先还是填入名称。注意选择你spark运行的语言我们用的Scala，还能用JAVA，Python等。

我们需要加两个命令行参数

对应不要错误填完如下。

Spark运行完会释放所有资源可以分配多一些资源，但是不要超出限制。超出限制Spark不会启动。

因为这里连接的HDFS没有建立在这个租户，选择外部hadoop集群。

配置core-site.xml 注意端口后面的”/”.

提交后就能在“我的应用”里找到。

可以点击应用右上角选择“日志”查看spark运行日志，查看流程运行过程是否报错。如果没有日志说明spark设置资源超出限制没有启动。删除后重新规划资源后创建。

当状态为”COMPLETED“时说明spark运行完成。

Spark运行完就可以选择删除它了。这样不会影响你下次再启动Spark。

去数据库看看运行结果。示例中Spark流程会在数据库中建立了一个表DEMO。表里就是我们的分析结果。

huzhuy

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫