spark读取elasticsearch中数组类型的字段

最新推荐文章于 2024-09-04 20:17:31 发布

蹩脚法师

最新推荐文章于 2024-09-04 20:17:31 发布

阅读量3.1k

点赞数 2

分类专栏： bug解决 spark

本文链接：https://blog.csdn.net/piduzi/article/details/81407434

版权

在使用SparkSQL从Elasticsearch读取包含数组字段的数据时，出现ClassCastException。错误源于Elasticsearch的mapping不记录字段是否为数组，导致Spark尝试将数组类型转换为非数组类型。解决方法是在读取配置中加入`es.read.field.as.array.include`选项，指定数组字段名，以避免类型不匹配的错误。

摘要由CSDN通过智能技术生成

之前做的一个项目需要用sparksql读取elasticsearch的数据，当读取的类型中包含数组时报错.

读取方式大概是

val options = Map("pushdown" -> "true",
  "strict" -> "false",
  "es.nodes" -> "127.0.0.1",
  "es.port" -> "9200")
val df = spark.read.format("es").options(options).load("spark/scorearray")

报错信息如下：

WARN ScalaRowValueReader: Field 'array' is backed by an array but the associated Spark Schema does not reflect this;
(use es.read.field.as.array.include/exclude)
ERROR Executor: Exception in task 2.0 in stage 1.0 (TID 3)
java.lang.ClassCastException: scala.collection.convert.Wrappers$JListWrapper cannot be cast to java.lang.Long
at scala.runtime.BoxesRunTime.unboxToLong(BoxesRunTime.java:105)
at org.apache.spark.sql.catalyst.expressions.BaseGener