Hive metastore 在 mysql 数据库的默认语言是 latin1。
在 hive 中创建的表, 在 show create table 时,汉字显示乱码。
解决方案
使用 mysql 客户端连接 hive metastore 数据库
执行以下语句:
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table TABLE_PARAMS modify column PARAM_KEY varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
其他说明
更改之后,只能对于新创建的 hive 表可以显示中文。以前的表,由于 latin1 和 udf8 编码对于相同的汉字编成的字节数组不一样,所以以前创建的表还是乱码。只能用alter table 的整体修改 comment。
例如现有表的创建 SQL 如下:
CREATE EXTERNAL TABLE test_t (
c1 double
);
修改表的 comment
ALTER TABLE test_t SET TBLPROPERTIES ('comment' = '中文表-comment');
修改字段的 comment (注意字段名写 2 次)
ALTER TABLE test_t CHANGE c1 c1 double COMMENT '中文字段-c1-comment';
验证
show create table test_t;
OK
CREATE EXTERNAL TABLE `test_t`(
`c1` double COMMENT '中文字段-c1-comment')
COMMENT '中文表-comment'
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://bmr-cluster/warehouse/tablespace/external/hive/test_t'
TBLPROPERTIES (
'bucketing_version'='2',
'last_modified_by'='hive',
'last_modified_time'='1640680509',
'transient_lastDdlTime'='1640680509')
Time taken: 0.303 seconds, Fetched: 16 row(s)