![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 87
掌舵的鹰
这个作者很懒,什么都没留下…
展开
-
Spark数据倾斜解决方法
发生数据倾斜时的常见的现象:绝大多数task执行得都非常快,但个别task执行极慢。大部分task都执行完了,但是最后几个task始终在运行。发生数据倾斜的原因:数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对...原创 2018-06-13 14:38:56 · 424 阅读 · 0 评论 -
Spark常见问题总结
1.java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.sql.metadata.SessionHiveMetaStoreClientspark无法知道hive的元数据的位置,所以就无法实例化对应的client。 解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下 2.Spar...原创 2018-06-13 12:18:29 · 1932 阅读 · 0 评论 -
sparkRDD编程常用函数方法
RDD创建RDD:弹性分布式数据集。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后,Spark 会自动将 RDD 中的数据分发到集群上,并将操作并行化执行。可以使用两种方法创建 RDD:读取一个外部数据集,val lines = sc.textFile("/path/to/README.md")在驱动器程序里分发驱动器程序中...原创 2018-06-13 11:47:37 · 1198 阅读 · 0 评论