Spark
文章平均质量分 74
Spark学习实战
小宇0926
简单的技术爱好者
展开
-
Spark读取ES报错EsHadoopInvalidRequest The number of slices [1632] is too large
较大的切片数可能会增加搜索操作的负载和资源消耗。是 Elasticsearch 中的一个设置,用于控制每次滚动搜索操作的切片数。指定数量为 2048,这种方式只需要修改读取索引的设置即可,不用重启服务,并且读取完毕之后可以将该参数值改回默认的 1024。当执行滚动搜索时,Elasticsearch 将结果切分为多个切片(slices),每个切片处理一部分数据。最近需要将ES指定索引中的数据使用Spark读取,进行简单处理后写入HBase,使用了如下依赖。设置决定了每次滚动搜索操作中可以使用的最大切片数。原创 2023-07-11 18:17:26 · 267 阅读 · 0 评论 -
Hive分区表数据压缩
使用Spark对Hive分区表数据进行压缩原创 2022-12-01 14:58:04 · 1301 阅读 · 0 评论