Spark菜鸟学习营Day6 分布式代码运行调试

最新推荐文章于 2024-10-13 20:28:02 发布

weixin_33998125

最新推荐文章于 2024-10-13 20:28:02 发布

阅读量98

点赞数

文章标签：大数据 json

原文链接：http://www.cnblogs.com/dt-zhw/p/5837330.html

版权

Spark菜鸟学习营Day6

分布式代码运行调试

作为代码调试，一般会分成两个部分

语法调试，也就是确定能够运行
结果调试，也就是确定程序逻辑的正确

其实这个都离不开运行，所以我们说一下如何让开发的Spark程序运行。
Spark的代码有一个特色，就是延时运行机制，就是当我们调用map等方法时，并不会立即触发运行。
而是会等待后续统一触发的处理。

所以我们需要在程序加入这个触发处理的环节。

这里分三步：

步骤1：在程序中使用append方法输出计算结果

        appendResultRDD(extendedQtslRDD, QtslTempPojoExtend.class);

步骤2：在测试程序中获取输出，并且进行打印

            printResult(
                result.seek("QtslTempPojoExtend", QtslTempPojoExtend.class)
                        .get());

步骤3：如果结果正确，请将控制台中打印的运行结果保存为json文件，并添加对应断言，这样我们就形成了一个自动化测试案例！！！

        assertRDDEquals(
                result.seek("QtslTempPojoExtend", QtslTempPojoExtend.class)
                        .get(),
                "OUT_TRD_QTSL_EXTEND_600_1",
                "测试第一个输出");

这样就完整完成了我们一个程序的开发！！！

转载于:https://www.cnblogs.com/dt-zhw/p/5837330.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33998125

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【持续更新】学习框架图plan

weixin_43885654的博客

06-13

403

框架图我的all学习任务&计划1.Markdown2.SQL3.行测4.机器学习5.每天一个业务小常识6.大数据分布式Hadoop7.数据结构算法题8.深度学习9.算法岗位：nlp、推荐系统、cv 1.Markdown 解释：首先要学会markdown，可以在博客中记录学习过程。用时：1day 状态：done Markdown学习链接：记录学习每一天 markdown操作指南 2.SQL 基础+进阶解释：基础部分比较简单，也学习了很长时间，实习过程也在用。主要是进阶部分，将各种用法和实际案例

CSDN前1000名博主

热门推荐

无知人生，记录点滴

05-26

8万+

博主简介 stpeace 排名：1 原创：2166 粉丝：7180 积分：181660 等级：10stpeace的专栏中国本博客供大家交流，欢迎各抒己见。博文中的内容禁止用 yuanmeng001 排名：2 原创：5286 粉丝：10660 积分：170616 等级：10袁萌专栏无穷小微积分倡导者–北大教授null老师 yjclsx 排名：3 原创：162...

参与评论您还未登录，请先登录后发表或查看评论

tensorflow分布式运行的代码

fsdgfsf的博客

05-20

294

手写识别体应用参照下面链接

分享一个调试多解决方案下的分布式项目的小技巧

weixin_30361753的博客

07-31

161

这只是个小技巧分享，不喜欢可以忽视不见即可请不要拍砖我们是分了多个解决方案的分布式项目大体机构是解决方案A :相当于一个应用服务器吧解决方案B:处理业务逻辑和基础数据的解决方案C：是一个WEB站点解决方案C 与解决方案A 用remoting通行，解决方案A与解决方案B的依赖关系是，A反射调用B的DLL，B依赖引用A的DLL ，这样是为了避免DLL循环依赖调...

调试分布式应用程序的最佳工具

Tybyqi的博客

10-19

629

诸如Kubernetes这样的分布式系统给现代应用程序栈带来了许多优势，但也带来了许多复杂和可移动的部件。当某件事情确实出错，或者没有按计划进行时，找出原因比使用“传统”应用程序要复杂得多。可能有几个因素和并发症。制度不一致虽然Kubernetes吊舱和Docker容器可以帮助您保持一些一致性，但它们通常运行在各种不同的底层机器上，所有这些都会带来组件、操作系统和小版本更改方面的细微差别。...

在分布式项目下，使用IDEA进行远程debbuger调试

qq_28582847的博客

07-10

1806

博主近期在弄分布式项目，由于没有专门的开发环境，一直都是在服务器上，对项目进行各种的log日志打印，然后重新部署，上线，调试。如果运气好的话，一次调试成功，运气不好的话.........那你可能要进行一个循环状态。然后公司终于决定弄开发环境啦，博主以为好日子终于来了，结果是坑的开始，不说花费大量时间进行分布式项目搭建，然后搭建起来了，有些项目居然不能调试不能调试不能调试。我...

Spark菜鸟学习营Day2 分布式系统需求分析

weixin_34400525的博客

09-03

115

Spark菜鸟学习营Day2 分布式系统需求分析本分析主要针对从原有代码向Spark的迁移。要注意的是Spark和传统开发有着截然不同的思考思路，所以我们需要首先对原有代码进行需求分析，形成改造思路后，再着手开发。对于输入和输出，请注意，指的是以程序为边界的输入和输出情况。主要迁移点： A:批量数据清理重点：分析要清理的表在哪里 A1.参数表：存放Oracle、Redis。清理Orac...

Spark菜鸟学习营Day5 分布式程序开发

weixin_34179762的博客

09-03

117

Spark菜鸟学习营Day5 分布式程序开发这一章会和我们前面进行的需求分析进行呼应，完成程序的开发。开发步骤 分布式系统开发是一个复杂的过程，对于复杂过程，我们需要分解为简单步骤的组合。针对每个简单步骤，难度会降低，学习成本降低每个步骤都可以作为里程碑，可以反馈进展，同时，有助树立目标感。 Step1：需求分析 1.1 拆分程序，形成步骤以语句为单位拆分，一般一个语句就是一个步骤...

Spark菜鸟学习营Day1 从Java到RDD编程

weixin_34342992的博客

09-03

Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始，初步掌握Spark程序的开发。 Spark的编程模型是一步一步发展过来的，今天主要带大家走一下这段路，让我们从一段最最基础的Java代码开始。问题:Java有哪些数据结构大致有如下几种，其中List与Map是最重要的： List Map Set Array Heap Stack Queue Tree...

大数据-11-案例演习-淘宝双11数据分析与预测

weixin_33804990的博客

05-10

1万+

主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例：淘宝双11数据分析与预测课程案例，由厦门大学数据库实验室团队开发，旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作，涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、EChar...

数据分析大数据面试题大杂烩02

GavinKai

03-09

2437

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co

python购物车结算_python中购物车

weixin_39533174的博客

12-19

794

python的基础语法python数据类型：(按特征划分)数字类型：1.整形：布尔形、长整型L、标准整形2.非整形：双精度型、复数、decimal(不是内建类型)序列类型：1.字符串(str)2.元组(tuple)3.列表(list)映像类型：1.字典(dict)集合类型：1....文章技术小甜2017-11-16635浏览量在tinycolinux上编译odoo8本文关键字：在tinycolin...

分布式的开发与运行流程

sms鱼的博客

04-29

1205

部署流程首先在master端（服务端），部署redis数据库、MySQL数据库等数据存储工具；然后在slaver端（分机端）部署分布式爬虫框架；注意点：在开发的时候首先要保证你的爬虫可以在单机系统下运行成功（数据爬取没问题，反爬也成功解决），然后再进行分布式部署运行原理把所有的分机（slaver）的爬虫运行起来，由于没有start_urls列表，所有分机爬虫现在都在等待start_...

分布式调试问题

NaShiYu的博客

12-29

679

分布时调试，即在分布式环境下定时任务的处理一、定时任务的场景定时任务：每隔一定时间/特定某一时间执行订单审核、出库订单超时⾃动取消、⽀付退款礼券同步、⽣成、发放作业物流信息推送、抓取作业、退换货处理作业数据积压监控、⽇志监控、服务可⽤性探测作业定时备份数据⾦融系统每天的定时结算数据归档、清理作业报表、离线数据分析作业二、分布式调度含义包含两层运行在分布式集群环境下的调试任务（同一个定时任务，程序部署多份，同一时刻只有一个定时任务在执...

020 elasticsearch7.10.2 elasticsearch-head kibana安装

m0_46695127的博客

10-13

813

020 elasticsearch7.10.2 elasticsearch-head kibana安装

第十二章 RabbitMQ之失败消息处理策略

Calvin的博客

10-11

1435

Spring AMQP提供了消费者失败重试机制，在消费者出现异常时利用本地重试，而不是无限地requeue到mq。我们可以定义一个异常队列和交换机，来接收其他交换机队列转发的无法处理的异常消息。然后我们可以查看其中的异常消息并进行人工处理。重试耗尽后，直接reject，丢弃消息（默认方式）重试耗尽后，将失败消息投递到指定的交换机（推荐）2. 定义接收失败消息的交换机、队列及其绑定关系。重试耗尽后，返回nack，消息重新入队。在实际项目的生产环境中，通过。

SparkSQL介绍及使用