spark
443441968
这个作者很懒,什么都没留下…
展开
-
spark运行程序问题--报WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
通过/spart-submit提交任务时,报WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources问题。且一直重试该操作。该问题spark集群没有资源可用。在本机测试情况下,虚拟机给2G的内存,那么spark中可设定为1G,这样就可以成功将任务运行完成。具体操作:找到spark下的...原创 2018-09-05 15:06:53 · 1360 阅读 · 0 评论 -
RDD总结
---前面是对算子的简单概述--后面有实例---[pair]表示一个元组 ;如("ty",12) With必须添加分区的类型---------------aggregate 聚合每个分区的值。每个分区中的聚合变量都是用零值初始化的。 aggregateByKey 将相同的key进行聚合 cartesian 笛卡尔积 check...原创 2018-09-10 13:39:43 · 325 阅读 · 0 评论 -
spark中ClosureClean中的clean方法
spark里面,大量使用了一个方法, ClosureCleaner.clean()----闭包资源清楚。为了能将RDD算子正常发送到各个worker节点。那么就需要序列化的类必须是正常的(指该类中的对外部的引用也能找到)因此对一些没有用的资源进行删除、清理。在这个类的闭包范围内。// 这里调用了SparkContext的clean方法 // clean方法实际上调用了Clos...转载 2018-09-07 10:34:27 · 1472 阅读 · 0 评论 -
sparkRDD总结
--------[pair]表示一个元组 ;如("ty",12) With必须添加分区的类型------------------------------------------aggregate :聚合每个分区的值。每个分区中的聚合变量都是用零值初始化的。aggregateByKey [Pair] ...原创 2018-09-07 17:19:06 · 1181 阅读 · 0 评论