HiveServer2的常见问题

  1. 在使用hiveserver2查询时(比如HUE,或者beeline连10000端口),会遇到这样的问题,where语句后如果使用了between,则between的两个值必须不一样,否则在hiveserver2中是查不出数据的,如果值一样的时候,直接用“=”。

例如: where date between 20160425 and 20160425 (hiveserver2 not OK, spark sql OK, hive -e OK), 需要写作where date=20160425

           where date between 20160420 and 20160425 ( OK)

 

2. Hive中中文注释问题

在hive中,如果要给字段或者表名增加中文的注释,会失败。

表或者字段有中文的时候需要修改hive的元数据库的设置。
以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题,详细见hive的wiki。

所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1。
为了保存那些utf8的中文,要将mysql中存储注释的那几个字段的字符集单独修改为utf8。

 

(1)修改表字段注解和表注解

alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8

alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8

(2) 修改分区字段注解:

 alter table PARTITION_PARAMS  modify column PARAM_VALUE varchar(4000) character set utf8 ; 

alter table PARTITION_KEYS  modify column PKEY_COMMENT varchar(4000) character set utf8; 

(3)修改索引注解:
alter table  INDEX_PARAMS  modify column PARAM_VALUE  varchar(4000) character set utf8;

然后修改Hive的Mysql连接为UTF-8(由于CDH的版本默认是UTF-8,所以此步骤可以省略)
 
修改hive连接mysql的连接为utf-8<property> 
 
   <name></name> 
 

  <value>jdbc:mysql://IP:3306/hive?createDatabaseIfNotExist=true&amp;characterEncoding=UTF-8</value
  <description>JDBC connect string for a JDBC metastore</description> 
</property>


3 hive 查询时

hive -e "add jar /data/script/distance.jar;

 create temporary function calc_dist as 'com.ymm.UDF.Distance';

select b.truck_no, b.truck_length, b.truck_load, dc1.prov_short, dc1.city_short, dc2.prov_short, dc2.city_short, 
cast ((calc_dist( c1.lon, c1.lat, c2.lon, c2.lat).value)/1000 as int) as distance,  a.create_time, a.truck_user_id from 
(select  start as start_city, \`end\`  as end_city,  truck_user_id, create_time from ods_logistics.orders) a
join
 dw_info.dim_users  b on a.truck_user_id=b.user_id
left outer join dw.dim_city dc1 on a.start_city= dc1.id
left outer join dw.dim_city dc2 on a.end_city= dc2.id
left outer join ods_logistics.city c1 on a.start_city= c1.id
left outer join ods_logistics.city c2 on a.end_city= c2.id  where b.truck_no is not null and b.truck_no <> '' and dc1.city_short<>dc2.city_short order by a. truck_user_id desc limit 200000
" > /data/tmp/cm4.txt

查询时是先选择出字段再order by,所以如果要做order by, 字段必须在select语句中
4. 在hive的分区表中,如果新增了字段。当重新overwrite这个分区的时候,所有的这些新增字段都为null,解决办法是先drop掉这个partition再重新生成
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值