Spark菜鸟学习营Day6 分布式代码运行调试

Spark菜鸟学习营Day6

分布式代码运行调试

作为代码调试,一般会分成两个部分

  1. 语法调试,也就是确定能够运行
  2. 结果调试,也就是确定程序逻辑的正确

其实这个都离不开运行,所以我们说一下如何让开发的Spark程序运行。
Spark的代码有一个特色,就是延时运行机制,就是当我们调用map等方法时,并不会立即触发运行。
而是会等待后续统一触发的处理。

所以我们需要在程序加入这个触发处理的环节。

这里分三步:

  • 步骤1:在程序中使用append方法输出计算结果
        appendResultRDD(extendedQtslRDD, QtslTempPojoExtend.class);
  • 步骤2:在测试程序中获取输出,并且进行打印
            printResult(
                result.seek("QtslTempPojoExtend", QtslTempPojoExtend.class)
                        .get());
  • 步骤3:如果结果正确,请将控制台中打印的运行结果保存为json文件,并添加对应断言,这样我们就形成了一个自动化测试案例!!!
        assertRDDEquals(
                result.seek("QtslTempPojoExtend", QtslTempPojoExtend.class)
                        .get(),
                "OUT_TRD_QTSL_EXTEND_600_1",
                "测试第一个输出");

这样就完整完成了我们一个程序的开发!!!

转载于:https://www.cnblogs.com/dt-zhw/p/5837330.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
联邦学习Spark分布式学习是两种不同的机器学习方法。 联邦学习是一种旨在保护用户数据隐私的学习方法。在联邦学习中,数据持有者将其数据分布式地存储在不同的设备或服务器上,并使用迭代的方式进行训练以获得模型。每次迭代中,设备会计算本地模型更新,然后将其发送到中央服务器进行聚合。通过这种方式,联邦学习能够在不共享原始数据的情况下建立全局模型,保护用户的隐私。联邦学习常用于医疗、金融等领域,其中涉及敏感数据的应用。 Spark分布式学习是一种使用Apache Spark分布式计算框架进行机器学习的方法。Spark是一种基于内存的大规模数据处理框架,能够以高效的方式对数据进行分布式处理和分析。分布式学习Spark中的一种机器学习模块,它提供了一系列分布式算法和工具,使得可以在大规模数据集上高效地进行机器学习任务,如分类、回归、聚类等。 与联邦学习不同,Spark分布式学习并不涉及数据隐私问题。它通过将数据分割成多个部分,并将其分配给不同的计算节点进行处理,实现了高效的并行化计算。Spark还提供了分布式机器学习库(MLlib),其中包含了一些常见的机器学习算法的实现,如随机森林、支持向量机等。使用Spark分布式学习,可以充分利用集群计算资源,快速得到可扩展的学习模型。 总的来说,联邦学习注重数据隐私保护,适用于不同数据源的合作学习;而Spark分布式学习则注重使用分布式计算框架进行高效的机器学习计算,适用于大规模数据集的学习任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值