使用Spark SQL构建批处理程序

最新推荐文章于 2024-05-07 19:24:58 发布

祝威廉

最新推荐文章于 2024-05-07 19:24:58 发布

阅读量828

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/allwefantasy/article/details/81039487

版权

StreamingPro目前已经涵盖流式/批处理，以及交互查询三个领域，实现配置和SQL化

前言

今天介绍利用 StreamingPro 完成批处理的流程。

准备工作

下载StreamingPro

README中有下载地址

我们假设您将文件放在了/tmp目录下。

填写配置文件

实例一,我要把数据从ES导出到HDFS,并且形成csv格式。

在批处理模式下，所有的数据源和输出都各自有一个固定的模块(使用了Spark的Datasource API),然后对模块做配置即可，无需使用不同的模块。

在这个示例里，你需要配置上ES集群作为输入，配置hdfs作为输出，从而完成运行。

启动StreamingPro

Local模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar     \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/test.json

访问

http://127.0.0.1:4040

可进入Spark UI

集群模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://cluster/tmp/test.json

这里需要注意的是，配置文件并蓄放到HDFS上，并且需要协商hdfs前缀。这是一个标准的Spark 批处理程序

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Spark SQL构建批处理程序

StreamingPro目前已经涵盖流式/批处理，以及交互查询三个领域，实现配置和SQL化前言今天介绍利用 StreamingPro 完成批处理的流程。准备工作下载StreamingProREADME中有下载地址我们假设您将文件放在了/tmp目录下。填写配置文件实例一,我要把数据从ES导出到HDFS,并且形成csv格式。gis...
复制链接

扫一扫

祝威廉

CSDN认证博客专家 CSDN认证企业博客

码龄16年

344: 原创

1万+: 周排名

5795: 总排名

105万+: 访问

: 等级

5887: 积分

1486: 粉丝

661: 获赞

720: 评论

793: 收藏

私信

关注

热门文章

分类专栏

Chrome 1篇
性能 1篇
浏览器 1篇
firefox 1篇
评测 1篇
Web开发 2篇
流水线 1篇
Java SSH改进 1篇
spark 13篇
思考 6篇
大数据 4篇
yarn 2篇
kafka 1篇
es 5篇
创业
12cd分享系列 3篇

最新评论

020- 使用AutoCoder本地快速构建程序员专有知识库
超级小龙虾: 你现在的代码感觉有问题，直接通用openai 兼容就行，没有必要byzerllm ，还有ray 启动的东西。都不想安装。去掉这两块内容。学习aider:: github.com/paul-gauthier/aider
auto-coder 新agent 帮你自动撰写 auto-coder YAML 文件
超级小龙虾: 看代码和文章，这个开源发一些视频，让我们深刻理解下，现在再用autogenstudio和https://github.com/paul-gauthier/aider 感觉aider设计很好，给定问题就能够生成对应的代码，也可添加多个文件让其做修改。
关于auto-coder的一次辩经
超级小龙虾: watch you code
探讨大模型未来：从Scaling Law到数据红利再到终极Token工厂
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
使用大模型只需要像对接数据库一样，你喜欢了么
五哥牧羊: 大佬，线上试用地址登录不上去咯 "status": 500, "error": "Internal Server Error", "message": "Unable to connect to Redis; nested exception is io.lettuce.core.RedisConnectionException: Unable to connect to byzer-site-cn.redis.cache.chinacloudapi.cn:6379",

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。