hive改表结构的两个坑

坑一:改变字段类型后更新数据不成功

 

关于hive插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如0.01 ,表中的字段也是DECIMAL(5,2)

  按照常理插入的应该是0.01,但是插入后查询是0,为甚!

 

  就分析呀,看语句没问题啊,上网查,上hive官网查,呀~ 发现了原因哦

  https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-Decimals

 

  发现在插入分区表时会出现这种情况,此时需要对之前的分区处理下~:

 

  那就测试一下 按照官网的说法:

先建表:

CREATE TABLE `tb_dw_cu_mimsg_fbi_servdt_day1`(

  `mimsg_serv` int COMMENT '微信服务量')

PARTITIONED BY (

  `statis_date` varchar(8))

ROW FORMAT DELIMITED

  FIELDS TERMINATED BY '|' ;

 

然后插入数据:

insert overwrite table tb_dw_cu_mimsg_fbi_servdt_day1 partition (statis_date=20160501) values(1.02);

 

然后查询:

hive> select * from tb_dw_cu_mimsg_fbi_servdt_day1;

OK

1                         20160501

 

发现结果跟想象中的一样~

然后修改表字段:

ALTER TABLE tb_dw_cu_mimsg_fbi_servdt_day1 REPLACE COLUMNS (mimsg_serv DECIMAL(5,2))

 

然后再次插入数据:

insert overwrite table tb_dw_cu_mimsg_fbi_servdt_day1 partition (statis_date=20160501) values(1.02);

 

查询:

hive> select * from tb_dw_cu_mimsg_fbi_servdt_day1;

OK

1           20160501

 

发现有问题啦!

那么按照官网处理:

Determine what precision/scale you would like to set for the decimal column in the table.

For each decimal column in the table, update the column definition to the desired precision/scale using the ALTER TABLE command:

ALTER TABLE foo CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);

If the table is not a partitioned table, then you are done.  If the table has partitions, then go on to step 3.

If the table is a partitioned table, then find the list of partitions for the table:

SHOW PARTITIONS foo;

 

ds=2008-04-08/hr=11

ds=2008-04-08/hr=12

...

Each existing partition in the table must also have its DECIMAL column changed to add the desired precision/scale.

This can be done with a single ALTER TABLE CHANGE COLUMN by using dynamic partitioning (available for ALTER TABLE CHANGE COLUMN in Hive 0.14 or later, with HIVE-8411):

SET hive.exec.dynamic.partition = true;

 

-- hive.exec.dynamic.partition needs to be set to true to enable dynamic partitioning with ALTER PARTITION

-- This will alter all existing partitions of the table - be sure you know what you are doing!

ALTER TABLE foo PARTITION (ds, hr) CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);

 

这里对表作如下处理:

ALTER TABLE tb_dw_cu_mimsg_fbi_servdt_day1 PARTITION (statis_date) CHANGE COLUMN mimsg_serv mimsg_serv DECIMAL(5,2);

 

 

再次插入数据:

insert overwrite table tb_dw_cu_mimsg_fbi_servdt_day1 partition (statis_date=20160501) values(1.02);

 

然后查询:

hive> select * from tb_dw_cu_mimsg_fbi_servdt_day1;

OK

1.02                20160501

Time taken: 0.066 seconds, Fetched: 1 row(s)

 

发现结果跟想象中的一样了。这个坑算是过去了~

 

坑二:增加字段后更新数据不成功

还是上面的例子那张表,再增加一个字段:

alter table tb_dw_cu_mimsg_fbi_servdt_day1 add COLUMNS (prov_code varchar(5))

 

然后查询

hive> select * from tb_dw_cu_mimsg_fbi_servdt_day1;

OK

1.02    NULL    20160501

Time taken: 0.082 seconds, Fetched: 1 row(s)

 

发现新增的字段默认的值是NULL,现在我重新覆盖一下元数据,给增加的字段一个值:

insert overwrite table tb_dw_cu_mimsg_fbi_servdt_day1 partition(statis_date=20160501) values (2.01,0371);

 

然后查询:

hive> select * from tb_dw_cu_mimsg_fbi_servdt_day1;

OK

2.01    NULL    20160501

发现还是NULL

不是我们想象的结果,查看一下官方文档说明发现了问题的所在:

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns

ALTER TABLE ADD or REPLACE COLUMNS CASCADE will override the table partition's column metadata regardless of the table or partition's protection mode. Use with discretion.

 

那就这样处理:

alter table tb_dw_cu_mimsg_fbi_servdt_day1 replace COLUMNS (mimsg_serv  decimal(5,2),prov_code varchar(5)) CASCADE;

 

直接查询,发现数据显示的数据已经发生了变化了~

hive> select * from tb_dw_cu_mimsg_fbi_servdt_day1;

OK

2.01    0371    20160501

 

综上发现,我们是按照Oracle这样的标准在考虑H-SQL,但是通过阅读官方文档发现二者之间还是有很大不同的,通过这次踩坑发现,仔细阅读官方文档的重要性!!!

 

在这里插入图片描述

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
### 回答1: 要根据关键字拼接两个表,可以使用Hive的JOIN操作。假设有两个表A和B,它们都有一个关键字字段key,可以使用如下的HiveQL语句进行拼接: ``` SELECT * FROM A JOIN B ON A.key = B.key; ``` 上面的语句会将表A和表B中关键字相同的行进行拼接,结果集中包含表A和表B中所有的列。可以根据需要选择需要的列进行查询。如果需要指定连接方式,可以使用LEFT JOIN、RIGHT JOIN或FULL OUTER JOIN等连接方式。 ### 回答2: Hive是基于Hadoop的数据仓库工具,允许我们使用SQL语言在分布式环境中进行数据查询和分析。在Hive中,我们可以使用关键字来拼接两个表。 要在Hive中根据关键字拼接两个表,我们可以使用SQL中的JOIN语句。JOIN语句用于将两个或多个表中的记录组合在一起,根据指定的列进行匹配。 在Hive中,我们可以使用以下语法来拼接两个表: SELECT * FROM table1 JOIN table2 ON table1.column = table2.column; 在上述语法中,table1和table2分别表示要拼接的两个表的名称,column表示要根据哪列进行匹配。 例如,假设我们有两个表A和B,它们的列分别为id和name,我们想根据id列拼接这两个表。我们可以使用以下语句来执行拼接操作: SELECT * FROM A JOIN B ON A.id = B.id; 上述语句将根据id列将表A和表B中的记录进行匹配,返回所有匹配的记录。通过这种方式,我们可以根据关键字拼接两个表。 总结起来,Hive提供了类似于SQL的JOIN语句,允许我们根据关键字拼接两个表。使用JOIN语句,我们可以根据指定的列将两个表中的记录组合在一起,以便进行更复杂的数据分析和查询。 ### 回答3: Hive是一款基于Hadoop的数据仓库工具,它提供了一种处理和查询大规模结构化数据的方式。在Hive中,我们可以使用关键字来进行表的拼接操作。 表拼接是将两个表按照指定的关键字进行连接操作,生成一个新的表。通常情况下,我们会使用关键字来进行连接操作,比如使用JOIN关键字。JOIN关键字在Hive中有多种类型,包括INNER JOIN、LEFT JOIN、RIGHT JOIN等,它们分别代表了不同的连接方式。 以INNER JOIN为例,假设我们有两个表A和B,它们有一个共同的列(关键字)C用于连接。我们可以使用如下的HiveQL语句进行表拼接: SELECT * FROM tableA JOIN tableB ON tableA.C = tableB.C; 这个语句会将表A和表B根据列C进行连接,并返回满足连接条件的结果。拼接后的表将包含表A和表B的所有列。 在进行表拼接时,我们可以根据需求选择不同的连接方式和连接条件。根据不同的连接方式,拼接后的结果可能会包含一方表中没有的数据或者只包含满足连接条件的数据。 通过使用Hive的关键字进行表拼接,我们可以灵活地处理和查询大规模的数据。这种方式可以帮助我们实现复杂的数据分析和挖掘任务。同时,Hive还支持对拼接后的表进行聚合、排序等操作,以满足不同的数据处理需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据社

码字不易,谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值