达梦启云平台中,部署使用SPARK笔记

    在达梦启云平台中SPARK的使用和其他应用的部署有很大不同。我在这记录一下我自己测试过程。

    我实验在平台上启动一个SPARK流程,调用Scala编写的jar包,处理数据,处理结果存放在达梦数据库中。jar包spark-demo.jar和待处理文件都存放在HDFS中。达梦数据库DM8已经建立。

    首先还是选择应用商店-大数据组件-Spark,页面点击右上角新增。

   运行Spark资源最少需要剩余2核2G以上。如下图部署区域还有2.5核11G资源可以调用。

  根据spark-demo.jar和HDFS和DM8数据库信息做配置。这些填入配置信息都来自HDFS地址,数据库地址和jar包代码。(根据自己的实际情况填入,完全照超是没用的,主要是要将对应信息填入对应位置。)

  应用程序包(jar包)地址:(应用程序包,支持local、hdfs、http方式,我们这用hdfs)

  hdfs:/hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/user/team001/spark-demo.jar

  应用入口:com.dameng.spark.examples.SparkDemo

  运行参数:

  参数1.数据文件地址:

  hdfs://hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/user/team001/demo.txt

  参数2.达梦数据库地址:jdbc:dm://dm8.teamg01.svc:5236

  hadoop的配置:(填入自己的hadoop user name 如果不知道一般用root)

  hadoop user name:teamname001

    core-site.xml 配置:     

 <configuration>

      <property>

    <name>fs.defaultFS</name> 
    <value>hdfs://hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/</value>

    </property>

     </configuration>

  首先还是填入名称。注意选择你spark运行的语言我们用的Scala,还能用JAVA,Python等。

 我们需要加两个命令行参数

 对应不要错误填完如下。

 

Spark运行完会释放所有资源可以分配多一些资源,但是不要超出限制。超出限制Spark不会启动。

因为这里连接的HDFS没有建立在这个租户,选择外部hadoop集群。

 配置core-site.xml 注意端口后面的”/”.

 提交后就能在“我的应用”里找到。

 可以点击应用右上角选择“日志”查看spark运行日志,查看流程运行过程是否报错。如果没有日志说明spark设置资源超出限制没有启动。删除后重新规划资源后创建。

当状态为”COMPLETED“时说明spark运行完成。

 Spark运行完就可以选择删除它了。这样不会影响你下次再启动Spark。

 

去数据库看看运行结果。示例中Spark流程会在数据库中建立了一个表DEMO。表里就是我们的分析结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值