SPARK
JavaGod
本人是Java技术的忠实粉丝,Hadoop生态圈技术爱好者,希望热爱技术的有志之士进行交流互动。
展开
-
Apache Spark 2.4 内置图像数据源介绍
Apache Spark 2.3 提供了 ImageSchema.readImages API(参见 Microsoft 的这篇文章),该 API 最初是在 MMLSpark 库中开发的。在 Apache Spark 2.4 中,这个 API 更容易使用,因为它现在是一个内置的数据源。使用图像数据源,您可以从目录加载图像并获取具有单个图像列的DataFrame。本文将介绍什么是图像数据源,并介绍如...原创 2019-01-25 14:49:50 · 541 阅读 · 0 评论 -
Apache Spark 2.4 新增内置函数和高阶函数使用介绍
针对数组类型的函数array_distinctarray_distinct(array<T>): array<T> :从给定数组中删除重复值。使用如下: SELECT array_distinct(array(1, 2, 3, null, 3)); [1,2,3,null] array_intersectarray_in...原创 2019-01-25 14:51:16 · 644 阅读 · 0 评论 -
Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
Apache Spark 2.4 是在11月08日正式发布的,其带来了很多新的特性具体可以参见这里,本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型(例如,数组类型),包括高阶函数。 在 Spark 2.4 之前,为了直接操作复杂类型,有两种典型的解决方案:将嵌套结构展开为多行,并应用某些函数,然后再次创建结构; ...原创 2019-01-25 14:52:51 · 233 阅读 · 0 评论 -
Apache Spark 2.4 正式发布,重要功能详细介绍
美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.4 带来了许多新功能,如下:添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架; 引入了许多内置的高阶函数,以便更容易处理复杂的数据类型(比如数组和 map); 开始支持 Scala 2.12; ...原创 2019-01-25 14:57:59 · 194 阅读 · 0 评论 -
Spark 从 Kafka 读数并发问题
经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题:某些 Spark 分区已经处理完数据了,另一部分分区还在处理数据,从而导致这个批次的作业总消耗时间变长;甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见,本文讨论的 Spark Direct 方式读取 Kafka 中的数据,这种情况下 Spark RDD 中分区和 Kafka 分区是一一对...原创 2019-01-25 15:00:21 · 208 阅读 · 0 评论 -
Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)
如果你使用 Spark RDD 或者 DataFrame 编写程序,我们可以通过 coalesce或 repartition 来修改程序的并行度: val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx) 或 val data = sc.newAPIHadoopFile(xxx).repartition(2).ma...原创 2019-01-28 10:58:24 · 4720 阅读 · 0 评论