Spark
文章平均质量分 64
江畔独步
这个作者很懒,什么都没留下…
展开
-
使用Spark3批量导入数据至MongoDB
Mongo DB is a distributed NOSQL(Not Only SQL) database based on a document model where data objects are stored as separate document inside a collection. Each MongoDB instance can have multiple databases and each database can have multiple collections. A do转载 2022-04-14 20:33:21 · 693 阅读 · 0 评论 -
Spark中用户业务代码里使用的jar与框架中内置jar冲突
最近在开发一个调用第三方接口, 并将接口中数据保存值mysql里的功能时, 遭遇了java开发中常见的jar冲突场景.开发背景是这样的:大数据对外输出的业务数据中, 有一块是关于业务A的状态判断的(如: 如何判断一个订单为有效订单), 并围绕业务A来做后续业务的数据分析工作.关于"业务A的状态判断"这块业务非常复杂, 设计到三十多个业务流程的分支判断, 早前大数据自己实现了一版(准实时基于spark;离线基于hive), 但由于分支覆盖面考虑不周, 偶尔会报一些issue, 这些issue或多或原创 2021-09-26 19:30:48 · 1132 阅读 · 0 评论 -
开发本地环境--支撑spark连接远程hive数仓
一、背景在开发Spark阶段,可能需要频繁的测试连接Hive、Redis、Kafka、Zookeeper,如果按常规操作操作,如下:1.Maven打成jar发布包2.上传至集群(Xshell、FileZilla等类型工具)3.使用spark2-submit 工具启动这些步骤时,如果调试次数众多,那将及其麻烦。下面介绍一下本地启动spark程序(如在Idea、eclipse等IDE上),通过直接运行本地 Spark 代码中的 main函数即可轻松访问远程Hive数仓。二、实验方案2.1原创 2021-08-23 14:22:41 · 2277 阅读 · 1 评论 -
开发本地环境--支撑sparkStreaming开发调试
如果sparkStreaming运行在windows本地(笔者OS 为 win10), 大概率会报如下错误, 相应的可能的解决方案如下:Q1. 缺包报错sing Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesException in thread "main" java.lang.NoClassDefFoundError: scala/xml/MetaData at org.apache.spark.原创 2021-08-11 13:59:17 · 358 阅读 · 0 评论 -
Spark 读取多套环境的配置文件数据
思路 一通过jvm 参数 传入环境信息, 并根据环境信息, 拼接出适配该环境的配置文件..-Dactive_env=test -DXss=100m1.1 工具类清单import com.typesafe.config.{Config, ConfigFactory}/** * 项目环境对应的配置信息获取工具类 */object ConfigTools { /** * 获取用户自定义的jvm环境配置参数 * * test环境: -Dactive_env=test原创 2021-07-09 18:25:54 · 679 阅读 · 1 评论 -
解决“Spark context stopped while waiting for backend“ issue
在配置为4C8G的虚拟机上安装hadoop生态全家桶,在安装Spark2,使用了社区版2.3的版本。安装完毕后,使用spark2自带的样例程序 org.apache.spark.examples.SparkPi 测试了下,结果报了如下错误:Spark context stopped while waiting for backend完整报错日志如下:2021-03-12 15:05:32 INFO ShutdownHookManager:54 - Deleting directory /tmp/s原创 2021-03-15 11:33:16 · 5966 阅读 · 0 评论 -
SparkStreming提交指定多个jar
现状有时候,程序打包时,为了简便,我们是将业务类及其第三方类库打到一个jar包中的,jar包命令以jar-with-dependencies后缀结尾,如:test-jar-with-dependencies.jar一般在pom.xml中如如下方式配置,即可打包成这种形式。<build> <sourceDirectory>src/main/scala</sourceDirectory> <plugins>原创 2021-02-26 13:50:55 · 410 阅读 · 0 评论 -
spark2-submit命令行说明
一、命令参数说明1.1 通用可选参数:--masterMASTER_URL, 可 以 是 spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local--deploy-modeDEPLOY_MODE, Driver 程序运行的地方,client 或者 cluster,默认是client。--classCLASS_NAME, 主类名称,含包名--jars逗号分隔的本地 JARS, Driv原创 2021-01-07 19:34:31 · 1570 阅读 · 0 评论 -
Spark Streaming如何实现自定义接收器?
官网原英文地址:http://spark.apache.org/docs/latest/streaming-custom-receivers.htmlSpark Streaming可以从其内置支持(除了Kafka,Kinesis,文件,套接字等)之外的任何任意数据源接收流数据。这就要求开发人员实现一个为从相关数据源接收数据而定制的接收器。本指南介绍了实现自定义接收器并在Spark Streaming应用程序中使用它的过程。请注意,可以通过Scala或Java语言来实现自定义接收器。用户如何实..翻译 2020-10-31 14:30:51 · 180 阅读 · 0 评论 -
SparkCore | Rdd依赖关系| 数据读取保存| 广播变量和累加器
阅读目录Spark中三大数据结构:RDD; 广播变量: 分布式只读共享变量;累加器:分布式只写共享变量;线程和进程之间1.RDD中的函数传递自己定义一些RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。传递一个方法class Search(query: String){ // extends Serializable //过滤出包含字符串的数据 def isMa...转载 2020-10-11 19:40:42 · 350 阅读 · 0 评论 -
Spark on YARN cluster & client 模式作业运行全过程分析
原文链接:https://www.iteblog.com/archives/1189.html,致谢下面是分析Spark on YARN的Cluster模式,从用户提交作业到作业运行结束整个运行期间的过程分析。客户端进行操作 1、根据yarnConf来初始化yarnClient,并启动yarnClient 2、创建客户端Application,并获取Applicat原创 2017-11-26 15:59:39 · 6893 阅读 · 6 评论 -
Spark运行原理
转载自,http://blog.csdn.net/lovehuangjiaju/article/details/48634607 在此向作者致敬!作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Spark运行方式Spark运行原理解析本节内容及部分图片来自: http://blog.csdn.net/boo转载 2017-01-19 16:26:25 · 630 阅读 · 0 评论