hive
文章平均质量分 80
hive
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Hive 表添加列(新增字段)
记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型,如ORC不存在该问题,而对于 Parquet、Text ,只有在已有分区下插入数据是,新增字段查询才为 NULL, 新增的分区正常。原创 2024-04-23 07:00:00 · 2771 阅读 · 0 评论 -
Hive增量查询Hudi表
简单总结如何利用Hive增量查询Hudi表我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由命名的Hive表。 例如,如果,我们得到 实现了由 支持的数据集的读优化视图,从而提供了纯列式数据。 实现了由 支持的数据集的实时视图,从而提供了基础数据和日志数据的合并视图。其中实时视图表只有在MOR表同步Hive元数据时才会有按照我之前总结的Apache Hudi 入门学习总结中Hive和Tez部分配置,就可以在Hive命令行里用Hive原创 2022-06-27 16:22:16 · 1951 阅读 · 2 评论 -
通过DBeaver本地访问远程Kerberos环境下的Hive
我的原创地址:https://dongkelun.com/2021/06/03/dbeaverConnectKerberosHive/前言本文讲解如何通过数据库客户端界面工具DBeaver连接远程Kerberos环境下的Hive。因为在远程服务器上的命令行里写SQL查询Hive表,如果数据量和表字段比较多,命令行界面不利于分析表数据,所以需要客户端工具如DBeave远程连接Hive查询数据,但是DBeaver默认的不能访问Kerberos下的Hive,需要一些配置才可以访问,这里记录一下。1、D原创 2021-12-01 13:45:45 · 2665 阅读 · 0 评论 -
Java 连接 Kerberos认证下的Spark Thrift Server/Hive Server总结
我的原创地址:https://dongkelun.com/2021/05/10/javaSparkThriftServerWithKerberos/前言总结Java如何连接Kereros认证下的Spark Thrift Server/Hive Server总结启动关于如何启动 Spark Thrift Server和 Hive Server 请参考https://dongkelun.com/2021/02/19/javaSparkThriftServer/Java 代码pom 依赖 &l原创 2021-11-29 19:05:38 · 2018 阅读 · 2 评论 -
Spark 本地连接远程服务器上带有kerberos认证的Hive
前言因为公司的测试环境带有kerberos,而我经常需要本地连接测试集群上的hive,以进行源码调试。而本地认证远程集群的kerberos,并访问hive,和在服务器上提交Spark程序代码有些不同,所以专门研究了一下并进行总结。服务器上在服务器上提交Spark程序认证kerberos比较简单,有两种方法:使用kinit 缓存票据 kinit -kt /etc/security/keytabs/hive.service.keytab hive/indata-192-168-44-128.inda原创 2021-11-01 19:41:33 · 4783 阅读 · 0 评论 -
Java 连接 Spark Thrift Server/Hive Server总结
我的原创地址:https://dongkelun.com/2021/02/19/javaSparkThriftServer/前言总结Spark Thrift Server、Hive Server以及如何用Java连接启动hive serverhiveserver2或hive --service hiveserver2默认端口是1000spark thrift server修改hive.server2.transport.mode为http(默认值为binary(TCP),可选值HTTP原创 2021-08-26 19:55:48 · 2771 阅读 · 0 评论 -
Spark 覆盖写Hive分区表,只覆盖部分对应分区
我的原创地址:https://dongkelun.com/2020/01/16/sparkHivePartitionOverwrite/前言总结Spark覆盖写Hive分区表,如何只覆盖部分对应分区版本要求Spark版本2.3以上,亲测2.2无效配置config("spark.sql.sources.partitionOverwriteMode","dynamic")注意1、saveAsTable方法无效,会全表覆盖写,需要用insertInto,详情见代码2、insertInto需要主原创 2021-06-17 19:31:29 · 2667 阅读 · 3 评论 -
Oracle、Spark、Hive SQL 正则总结
我的原创地址:https://dongkelun.com/2019/12/02/SQLRegExp/前言学习总结Oracle、Spark、Hive SQL 正则匹配函数-函数OralceREGEXP_LIKESparkRLIKE、REGEXPHiveRLIKE、REGEXP建表OracleCREATE TABLE TEST_REGEXP ( ID VARCHAR2(100), NAME VARCHAR2(100)) ;INSERT INTO T原创 2021-02-27 11:58:48 · 526 阅读 · 0 评论 -
Spark操作Hive分区表
我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/前言前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据,并记录一下遇到的问题以及如何解决。1、Spark创建分区表只写主要代码,完整代码见附录......原创 2018-12-07 00:11:32 · 12450 阅读 · 11 评论 -
Hive分桶表学习总结
前言学习总结一下Hive的分桶表。分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。优点:1、提高join查询效率 2、提高抽样效率1、建表通过 clustered by(字段名) into bucket_num buckets 分桶,意思是根据字段名分成bucket_num个桶create table test_...原创 2018-12-12 09:24:18 · 1809 阅读 · 1 评论 -
Hive内部表和外部表
我的原创地址:https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/前言总结一下Hive的内部表和外部表以及两者的区别。1、建表语句1.1 内部表平时创建的普通表为内部表create table `test_internal` (id string comment 'ID', name string comme...原创 2018-12-05 23:13:43 · 1934 阅读 · 0 评论 -
Hive分区表学习总结
前言用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。Hive分区分为静态分区和动态分区1、建表语句先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句是一样的。create table test_partition (id strin...原创 2018-12-04 12:20:47 · 1039 阅读 · 0 评论 -
利用Spark实现Oracle到Hive的历史数据同步
我的原创地址:https://dongkelun.com/2018/08/27/sparkOracle2Hive/1、需求背景和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只是同步历史数据,不包括同步增量数据。2、Oracle和Hive的字段类型对应利用Spark...原创 2018-09-03 13:43:46 · 3142 阅读 · 0 评论 -
通过数据库客户端界面工具DBeaver连接Hive
本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。为什么使用客户端界面工具而不用命令行使用hive其实在网上搜一下,连接hive的工具还有很多,使用DBeaver的原因是因为我之前连接关系型数据库使用的就是DBeaver,正好DBeaver支持连接hive,且个人认为DBeaver确实挺好用的,支持各...原创 2018-08-03 09:16:25 · 27163 阅读 · 3 评论 -
hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException
这个异常是用spark sql将oracle(不知道mysql中有没有该问题,大家可以自己测试一下)中表数据查询出来然后写入hive表中,之后在hive命令行执行查询语句时产生的,下面先具体看一下如何产生这个异常的。...原创 2018-05-21 00:46:37 · 10400 阅读 · 1 评论 -
spark-submit报错:Exception in thread “main“ java.sql.SQLException:No suitable driver
最近写了一个用spark连接oracle,然后将mysql所有的表保存到hive中的程序,在本地eclipse里运行没有问题,想在集群上跑一下,看看在集群上性能如何,但是用spark-submit 提交程序时抛出一个异常Exception in thread “main” java.sql.SQLException: No suitable driver,一开始以为spark-submit提交时找不到oracle 驱动jar,折腾了半天才发现是代码问题。...原创 2018-05-09 17:20:12 · 8572 阅读 · 0 评论