解决Spark 读取 Elasticsearch的array类型报错的问题

解决Spark 读取 Elasticsearch的array类型报错的问题

在我们读取Elasticsearch存储的半结构化的数据是,会遇到需要获取array类型的数据。然而会报错,错误截图如下:

image

  • es.read.field.as.array.include

通过es.read.field.as.array.include指定array类型,防止报错。代码如下:

from pyspark.sql import SparkSession

if __name__ == '__main__':
    spark = SparkSession.builder \
        .appName("SparkOnEs") \
        .master("local") \
        .config('spark.jars.packages', 'org.elasticsearch:elasticsearch-spark-20_2.11:6.5.2') \
        .getOrCreate()

    df = spark.read.format("org.elasticsearch.spark.sql") \
        .option("es.nodes", "localhost") \
        .option("es.port", "9200") \
        .option("es.read.field.as.array.include", "sons") \
        .load("test/info")

    df.printSchema()
    df.registerTempTable("tmp")

    df2 = spark.sql("select * from tmp")
    df2.show()

    spark.stop()

结果如图:

image

es参数参考:

ES Configuration


除此之外,如果在es插入数据时,如果存在字段有空对象{}或空集合[]的时,需要注意,可能会导致报错。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值