hive导入csv出现中文乱码问题

在HIVE中序列化的时候需要指定一下字符编码,这是HIVE issue解决办法中找到的。https://issues.apache.org/jira/browse/HIVE-7142。
依照这个文档的说明,对指定的表进行设置,即设置序列化编码为GBK,以WINDOW拷贝导入的数据编码相匹配。

ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK'); 

问题解决!

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
hive导入csv数据主要有以下两种方法: 1. 使用LOAD DATA命令导入csv数据 步骤如下: (1)创建数据表 首先需要在hive中创建一个数据表,表的结构应该与csv文件中的数据结构相匹配,例如: ``` CREATE TABLE mytable ( id INT, name STRING, age INT, gender STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE; ``` (2)将csv文件上传到HDFS上 使用hadoop fs -put命令将csv文件上传到HDFS上,例如: ``` hadoop fs -put /local/path/to/myfile.csv /hdfs/path/to/myfile.csv ``` (3)使用LOAD DATA命令导入csv数据 使用LOAD DATA命令将csv数据导入hive表中,例如: ``` LOAD DATA INPATH '/hdfs/path/to/myfile.csv' INTO TABLE mytable; ``` 2. 使用EXTERNAL TABLE导入csv数据 步骤如下: (1)创建外部表 首先需要在hive中创建一个外部表,外部表的结构应该与csv文件中的数据结构相匹配,例如: ``` CREATE EXTERNAL TABLE mytable ( id INT, name STRING, age INT, gender STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' LOCATION '/hdfs/path/to/myfile.csv'; ``` (2)将csv文件上传到HDFS上 使用hadoop fs -put命令将csv文件上传到HDFS上,例如: ``` hadoop fs -put /local/path/to/myfile.csv /hdfs/path/to/myfile.csv ``` (3)查询外部表 使用SELECT语句查询外部表,hive会自动读取HDFS上的csv文件并将其解析成表格数据,例如: ``` SELECT * FROM mytable; ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值