hive
lvwenyuan_1
这个作者很懒,什么都没留下…
展开
-
Flink SQL 以catalog方式写入HIVE
Flink 可以通过连接hive catalog的形式向hive写入数据。重点!!hive 必须有以下属性:'transactional' = 'false' 'sink.partition-commit.policy.kind'='metastore,success-file'下面是案例package com.kkb.flink.stream;import com.kkb.flink.stream.util.FlinkUtils;import com.kkb.flink.s原创 2021-03-12 15:53:38 · 2581 阅读 · 2 评论 -
hive数据跨集群迁移
背景CDH集群hive数据迁移到华为MRS大数据集群,其中CDH的表,是由spark sql自动创建的,底层文件也是parquet格式的snappy压缩文件。步骤1.hive命令export table hivedb.tablename to 'hdfs路径';导出数据以及表结构 到对应的hdfs路径 ,例如:export table reports.testtab to ...原创 2019-10-21 17:45:35 · 1903 阅读 · 3 评论 -
Spark DataFrame 写入HIve 出现HiveFileFormat`. It doesn't match the specified format `ParquetFileFormat`
场景现在有一个需求,解析一个csv文件,然后写入hive已经存在的表中,就出现了这个错org.apache.spark.sql.AnalysisException: The format of the existing table arcsoft_analysis.zz_table is `HiveFileFormat`. It doesn't match the specified fo...原创 2019-05-30 15:46:33 · 8814 阅读 · 0 评论 -
HIVE 合并小文件
今天,用Flink写入hive的时候,突然想到一个问题,就是如果隔一个小时生成一个文件,那么kafka的并行度为12,也就是说,一个小时会产生12个文件。一天就是12*24个文件,10天,就有2000多个文件。这个肯定是不可取的。于是研究一下,如何合并hive小文件,大家可以参考https://cloud.tencent.com/developer/article/1514064这篇文章。于...原创 2019-10-10 17:35:45 · 905 阅读 · 0 评论