相同数据数据量查询比较查询es和hive的性能

最新推荐文章于 2023-11-14 15:31:08 发布

小王记得多喝水

最新推荐文章于 2023-11-14 15:31:08 发布

阅读量1.2k

点赞数 1

文章标签： hive elasticsearch big data

本文链接：https://blog.csdn.net/Jibo12138/article/details/120742712

版权

本文介绍了通过Hive查询全量数据替代ES，以提高查询效率的步骤。首先，将ES数据全量同步到Hive内部表，然后使用SparkSQL分别从ES和Hive查询全量数据，对比两者耗时。结果显示，Hive查询89004250条数据仅需33秒。文章强调，选择Hive还是ES取决于实际业务场景，如条件查询和聚合操作的复杂性。

摘要由CSDN通过智能技术生成

场景：通过借助从hive查询全量数据缩短原先从es中查询全量数据所耗费的时间

第一步：

将es中数据全量同步到内部表in_table中，通过hive调用查询语句可查询到全量数据，同步过程可见上一篇博客：

Hive环境搭建+读取es数据到内部表_Jibo12138的博客-CSDN博客

通过在hive调用查询语句查询数据总量，本场景下的数据总量达到89004250条

第二步：

编写spark sql代码，通过spark查询es中某索引的全量数据：

public static void main(String[] args){
    SparkSession spark=SparkSession.builder().master("local[3]").appName("测试es").getOrCreate();
    SparkUdfRegister.register(spark);
    Map<String,String> esConfig=new HashMap<>(10);
    esConfig.put(ConfigurationOptions.ES_NODES,"es地址");
    esConfig.put(ConfigurationOptions.ES_NODES_WAN_ONLY,"true");
    esConfig.put(ConfigurationOptions.ES_PORT,"es端口");
    esConfig.put(ConfigurationOptions.ES_NET_HTTP_AUTH_USER,"es用户名");
    esConfig.put(ConfigurationOptions.ES_NET_HTTP_AUTH_PASS,"es密码");
    esConfig.put(ConfigurationOptions.ES_RESOURCE,"es索引");
          
spark.read().format("org.elasticsearch.spark.sql").options(esConfig).load().createOrReplaceTempView("source_table_es");
    spark.sql("select * from source_table_es").count();

}

打jar包之后，把jar包拖到linux上，执行命令：

./spark-submit --class 主类路径 --master local[3] jar包路径

最终读取全量数据完毕

第三步：

编写spark sql代码，通过spark查询hive内部表中存储的与es中同样的全量数据

public static void main(String[] args){
    SparkSession spark=SparkSession.builder().master("local[2]").appName("query hive").config("spark.sql.warehouse.dir","hdfs://warehouse的路径，如何配置可见上一篇文章").config("hive.metastore.uris","thrift://metastore地址加端口").enableHiveSupport().getOrCreate();
    spark.sql("select * from in_table").count();
}

hive需要开启metastore服务，可以在hive的bin目录下执行命令：