Spark-Streaming
文章平均质量分 58
Spark-Streaming
南风知我意丿
“知识,哪怕是知识的幻影,也会成为你的铠甲,保护你不被愚昧反噬”
展开
-
Spark Streaming 动态资源配置
spark.streaming.dynamicAllocation.enabled: 默认false,是否启用Spark Streaming流处理动态资源分配。spark.streaming.dynamicAllocation.scalingInterval: 默认60秒,多久检查一次。spark.streaming.dynamicAllocation.scalingUpRatio: 默认0.9,增加Executor的阈值。原创 2022-10-14 17:45:33 · 654 阅读 · 0 评论 -
SparkStreaming写入Hive慢
数据量级上亿,SparkStreaming 的 bath time 为 1 min, 在某一个时刻开始出现任务堆积,即大量任务处于 Queued 状态,卡在了某个 job,最长延迟时间为 1.7 h。查看 job 状态一直处于 processing, 但是发现该 job 写 hive 的时间也就花费了 30 秒左右,但是该 job 最终执行完的时间远远大于这个时间。慢慢的,每一批次都要慢几分钟,出现堆积,最终造成数据大面积延迟。原创 2022-08-24 11:54:57 · 1110 阅读 · 1 评论 -
记一次Spark foreachPartition导致OOM
1、对于我们写的function函数,就调用一次,一次传入一个partition所有的数据2、主要创建或者获取一个数据库连接就可以3、只要向数据库发送一次SQL语句和多组参数即可在实际生产环境中,清一色,都是使用foreachPartition操作;但是有个问题,跟mapPartitions操作一样,如果一个partition的数量真的特别特别大,比如真的是100万,那基本上就不太靠谱了。一下子进来,很有可能会发生OOM,内存溢出的问题。...原创 2022-07-18 11:54:26 · 515 阅读 · 0 评论 -
记一次redis超时
Spark Streaming任务消费kafka,把offsets存到redisredis连接超时原创 2022-06-27 11:52:45 · 594 阅读 · 0 评论 -
Spark提交参数--files的使用
跨集群读写数据,我们测试了写hbase是可以从计算集群向存储集群写的,而且能写进去。但是一旦写hive 他就是写不存储集群的hive中,每次都只写到了计算集群的hive中。这让我很费解,而且我在本地IDEA上测试的时候,就能写到存储集群的hive中,一旦上小海豚放集群上跑 他就写跑偏了,就给写到计算集群的hive里面了。原因分析:1.我先去Spark的运行界面上查看了Environment下的hadoop的参数,我搜了nn1去看了一下,看看我的changenamenode方法到底有没有给我生效原创 2022-06-21 15:52:36 · 1464 阅读 · 0 评论 -
redis读超时
问题redis.clients.jedis.exceptions.JedisConnectionException: java.net.SocketTimeoutException: Read timed out at redis.clients.jedis.util.RedisInputStream.ensureFill(RedisInputStream.java:204) at redis.clients.jedis.util.RedisInputStream.readByte(RedisInpu原创 2022-05-18 00:02:14 · 1297 阅读 · 0 评论 -
Spark Streaming处理冷启动后kafka积压数据
Spark Streaming处理冷启动后kafka积压数据因为首次启动JOB的时候,由于[冷启动](https://so.csdn.net/so/search?q=冷启动&spm=1001.2101.3001.7020)会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量spark.streaming.backpressure.enabled=truespark.streaming.backpressure.initialRate=200使用SparkStreaming集成k原创 2022-05-07 22:35:17 · 468 阅读 · 0 评论