解决Spark 读取 Elasticsearch的array类型报错的问题

最新推荐文章于 2021-07-07 15:14:56 发布

张行之

最新推荐文章于 2021-07-07 15:14:56 发布

阅读量1.8k

点赞数 2

分类专栏：大数据文章标签： spark elasticsearch spark on es array

本文链接：https://blog.csdn.net/qq_33689414/article/details/88644931

版权

大数据专栏收录该内容

84 篇文章 6 订阅

订阅专栏

解决Spark 读取 Elasticsearch的array类型报错的问题

在我们读取Elasticsearch存储的半结构化的数据是，会遇到需要获取array类型的数据。然而会报错，错误截图如下：

es.read.field.as.array.include

通过es.read.field.as.array.include指定array类型，防止报错。代码如下：

from pyspark.sql import SparkSession

if __name__ == '__main__':
    spark = SparkSession.builder \
        .appName("SparkOnEs") \
        .master("local") \
        .config('spark.jars.packages', 'org.elasticsearch:elasticsearch-spark-20_2.11:6.5.2') \
        .getOrCreate()

    df = spark.read.format("org.elasticsearch.spark.sql") \
        .option("es.nodes", "localhost") \
        .option("es.port", "9200") \
        .option("es.read.field.as.array.include", "sons") \
        .load("test/info")

    df.printSchema()
    df.registerTempTable("tmp")

    df2 = spark.sql("select * from tmp")
    df2.show()

    spark.stop()

结果如图：

es参数参考：

ES Configuration

除此之外，如果在es插入数据时，如果存在字段有空对象{}或空集合[]的时，需要注意，可能会导致报错。

张行之

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
解决Spark 读取 Elasticsearch的array类型报错的问题

解决Spark 读取 Elasticsearch的array类型报错的问题在我们读取Elasticsearch存储的半结构化的数据是，会遇到需要获取array类型的数据。然而会报错，错误截图如下：es.read.field.as.array.include通过es.read.field.as.array.include指定array类型，防止报错。代码如下：from pyspark....
复制链接

扫一扫