spark
sujins5288
这个作者很懒,什么都没留下…
展开
-
spark连接JDBC 报 Task not serializable问题
有个简单需求用spark解析一个配置文件存入数据库,在操作中,为了高效使用了spark的foreachPartition算子,结果呢,一直告诉我:看最下边日志原因告诉我是jdbc无法序列化导致的,于是打算重写jdbc类实现序列话,结果,,,无法实现序列号接口,百般无奈下,看到下边日志提示,明显是util.hashMap无法序列化导致的,那么也就是说因为连接jdbc时传入的propertis无法...原创 2020-04-24 23:54:16 · 417 阅读 · 0 评论 -
Spark运行架构总结说明
在分布式环境下,spark采用的是主从架构。在一个spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节点通信,它们也都作为独立的java进程运行。驱动器节点和所以的执行器节点一起被称为一个Spark运用。驱动器节点:spark驱动器...原创 2019-06-21 14:06:02 · 298 阅读 · 0 评论 -
spark内存管理说明
spark内存有几种不同的用途,理解并调优spark的内存使用方法有利于帮助优化spark的应用。在各个执行器中,内存有如下几种用途。1.RDD存储 当调用persist或cache方法时,这个RDD的分区会被存储到缓存区中。spark会根据spark.storage.memoryFraction限制用来缓存的内存占整个jvm堆空间的大小。如果超出限制,旧的分区数据会被移出内存。...原创 2019-06-21 14:56:08 · 140 阅读 · 0 评论