spark
文章平均质量分 61
明喆_sama
安居杭州,放眼世界,路漫漫其修远兮,吾将上下而求索
展开
-
谈一谈StructStreaming消费kafka如何保证eos(Exactly Once)语义
一、我们知道sparkstreaming如果想保证Exactly Once语义需要借助mysql等事务的数据库来实现,具体实现方式可以参考:https://blog.csdn.net/wangpei1949/article/details/89277490二、原创 2021-06-01 11:54:11 · 377 阅读 · 0 评论 -
org.apache.hudi.avro.HoodieAvroUtils.getNestedFieldVal(Lorg/apache/avro/generic/GenericRecord;Ljava/
一、错误信息:Exception in thread "main" org.apache.spark.sql.streaming.StreamingQueryException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 4 times, most recent failure: Lost task 0.3 in stage 3.0 (TID 6, emr-worker-1.cluster-210018, executor原创 2021-05-24 18:40:10 · 356 阅读 · 0 评论 -
structstreaming消费kafka,报找不到kafka source
执行脚本:spark-submit --class com.bigdata.SparkDemo --master yarn --deploy-mode client --driver-memory 1g /tmp/StructStreamingdemo-1.0-SNAPSHOT.jar报错信息如下Exception in thread "main" org.apache.spark.sql.AnalysisException: Failed to find data source: kafka..原创 2021-05-14 17:21:32 · 1881 阅读 · 0 评论 -
spark一些常见错误及解决方法
1.Error in query: nondeterministic expressions are only allowed in Project, Filter, Aggregate or Window, found解决方法:如果是SparkSQL脚本,则rand()等函数不能出现在join...on的后面,使用rand()函数一般的解决数据倾斜的问题,在sparksql 就直接 join on。参考https://blog.csdn.net/qq_33588730/article/detai.原创 2020-11-30 16:12:52 · 2318 阅读 · 1 评论 -
spark之rdd partition
.转载 2020-09-14 13:03:32 · 473 阅读 · 0 评论 -
Master Woker Executor 远程调试方法--mac 伪分布式集群(standalone)
苦于不知道如何通过远程调试跟进spark源码,千方百计的去搜索资源,终于搞会了,现在分享一下远程调试的步骤1、Master Worker 远程调试1.1 在spark-env.sh末尾新增2行代码export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10005"export SPARK_WORKER_OPTS="-Xdebug -Xrunjdwp:transport原创 2020-08-06 10:14:28 · 133 阅读 · 0 评论 -
spark2.4.0 伪分布式集群搭建 mac环境
一、官网文档https://spark.apache.org/docs/2.4.0/spark-standalone.html二、技能标签- 学会安装Spark 2.4.0 standalone模式环境安装- Spark 集群环境maste,worker,history server 启动停止命令- Spark master,worker,history server 配置和管理界面查看- Spark shell 终端执行交互式命令,Spark shell 作业监控 - World.原创 2020-08-04 16:03:43 · 383 阅读 · 0 评论 -
spark2.4.3源码编译 mac版
一、为了阅读spark源码,需要编译spark源码,这样可以在里面写注释方法如下:1、官网下载源码-spark2.4.3并导入IDEA2、编译步骤可以参考官网:http://spark.apache.org/docs/2.4.3/building-spark.html不过很多网友也整理了很多方法,我就参考网友的方法整理了一下我编译的步骤:a) 修改maven仓库镜像为阿里云的<repositories> <!-- This should be at.原创 2020-08-04 11:27:05 · 241 阅读 · 1 评论 -
spark-sql使用hive的自定函数配置
1、spark-sql可以直接使用hive的自定义函数,而不需要重新写一套spark-sql的自定义函数,这里较大家一个简单的配置方式即可2、将hive的自定义函数jar拷贝到/usr/lib/spark-current/jars,我们的jar是先存在oss,所以用下面的命令, osscmd get --host=oss-cn-hangzhou-internal.aliyuncs.com --id=accessid --key=accesskey oss://bigdata-cps-test/h原创 2020-06-15 19:43:49 · 1322 阅读 · 0 评论 -
整合mongodb和spark的时候遇到Exception in thread "main" java.lang.SecurityException: clas
整合mongodb和spark的时候遇到一个巨大的坑,运行程序时报:Exception in thread "main" java.lang.SecurityException: class "javax.servlet错误!!! 问题本质:maven 导入jar包依赖冲突,既有jsp-api-2.1.jar 又有servlet-api-2.5.jar 解决办法:...2016-11-01 23:32:47 · 299 阅读 · 0 评论 -
spark结合hive数据倾斜的几种解决方案
数据倾斜表现:有的task执行很快,有的很慢或者内存溢出 定位数据倾斜的位置:用client模式提交,观察log 解决方案1、在hive etl时进行数据聚合,把key相同的数据聚合成一条数据,这样就可能不用shuffle了,从而解决数据倾斜。当没办法对key进行聚合时也可以选择其它粒度聚合,比如数据中包含了几个城市,几个职业,可以选择合适的粒度聚合。 2...原创 2016-10-05 20:37:51 · 1273 阅读 · 0 评论 -
Spark面对OOM问题的解决方法及优化总结
http://blog.csdn.net/yhb315279058/article/details/51035631Spark面对OOM问题的解决方法及优化总结原创 2016-09-09 21:02:05 · 249 阅读 · 0 评论