前言
- Hive:2.3.0
- Hadoop:2.7.7
- MySQL Server:5.7.10
- OS:CentOS 7
- 本文主要演示如何解决Hive注释内容(即COMMENT)中出现中文乱码的问题
原因
Hive中的表字段等注释信息都存储在元数据库metastore
中(本文中的元数据存储在MySQL的hive_db数据库中),当使用desc
命令查看表字段的注释信息时,Hive会直接读取元数据库中的hive_db.COLUMNS_V2
表,同样的修改元数据库中此表中的内容会直接反馈到desc
的查询结果中。故,之所以desc
查询结果中显示中文乱码,是因为元数据库中对应表中的元数据字符集无法显示中文(默认为latin1
),因此本文主要是通过修改元数据库中的字符集来解决中文乱码的问题。
解决步骤
1)连接存储元数据的数据库(此处为MySQL中的hive_db),执行下列SQL语句
-- 注意选择对应的元数据存储数据库
use hive_db;
-- 修改表字段注释字符集
ALTER TABLE COLUMNS_V2 MODIFY COLUMN `COMMENT` varchar(256) CHARACTER SET utf8;
-- 修改表字段名字符集
ALTER TABLE COLUMNS_V2 MODIFY COLUMN `COLUMN_NAME` varchar(767) CHARACTER SET utf8;
-- 修改表属性Key和Value字符集
ALTER TABLE TABLE_PARAMS MODIFY COLUMN `PARAM_VALUE` varchar(4000) CHARACTER SET utf8;
ALTER TABLE TABLE_PARAMS MODIFY COLUMN `PARAM_KEY` varchar(256) CHARACTER SET utf8;
-- 修改分区属性Key和Value字符集
ALTER TABLE PARTITION_PARAMS MODIFY COLUMN `PARAM_KEY` varchar(256) CHARACTER SET utf8;
ALTER TABLE PARTITION_PARAMS MODIFY COLUMN `PARAM_VALUE` varchar(4000) CHARACTER SET utf8;
-- 修改分区字段Key和Value字符集
ALTER TABLE PARTITION_KEYS MODIFY COLUMN `PKEY_COMMENT` varchar(4000) CHARACTER SET utf8;
ALTER TABLE PARTITION_KEY_VALS MODIFY COLUMN `PART_KEY_VAL` varchar(256) CHARACTER SET utf8;
-- 修改分区的分区名字符集
ALTER TABLE `PARTITIONS` MODIFY COLUMN `PART_NAME` varchar(767) CHARACTER SET utf8;
-- 修改索引属性Key和Value字符集
ALTER TABLE INDEX_PARAMS MODIFY COLUMN `PARAM_KEY` varchar(256) CHARACTER SET utf8;
ALTER TABLE INDEX_PARAMS MODIFY COLUMN `PARAM_VALUE` varchar(4000) CHARACTER SET utf8;
2)修改metastore的连接url
修改hive-site.xml文件中对应配置
<!-- JDBC连接MySQL设置,其中MySQL安装在hadoop101上,MySQL通信端口为3306,
存储Hive metadata的数据库名为hive_db, 如果不存在对应数据库则进行创建
即createDatabaseIfNotExist=true-->
<!-- 默认值:jdbc:derby:;databaseName=metastore_db;create=true -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop101:3306/hive_db?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=UTF-8</value>
<description>
JDBC connect string for a JDBC metastore.
To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
</description>
</property>
3)重新建表即可
PS:修改编码之前的注释依旧是乱码,只有修改编码之后创建的注释才不会乱码