Hive
文章平均质量分 66
终码一生
这个作者很懒,什么都没留下…
展开
-
Hive SQL 行转列 和 列转行 1列转多列 函数和示例
起因最近收到一个需求,做一张宽表的清洗处理,基于一张表格做条件,于是便把表格直接抽为一张字典表,用于对基础数据做match匹配。表格数据如下:整理后表数据如下(仅作演示,省略了其他条件字段):hive> select arch_value, industry from dim.company_arch_value_condition_tag limit 10;OK高 IT互联网_IT信息技术高 金融_银行业|金融_保险业|金融_资本市场_证券期货高 教育高 商贸高 (除上原创 2021-09-27 16:58:38 · 2658 阅读 · 1 评论 -
执行HiveSql时报错“FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTa”
执行HiveSql时报错“FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Permission denied: user=ods_pro, access=EXECUTE, inode="/tmp/hadoop-yarn":dwb_pro:hadoop:drwx------ at org.apache.hadoop.hdfs.server.namenode.FSPermi...原创 2020-11-19 10:03:06 · 4270 阅读 · 0 评论 -
Hive启动MapReduce任务参数
在运行Hive Sql时,有时候Hive本身的优化机制,是不启动MapReduce任务,可以快速实现查询,但是有时候也会因为这种机制,造成查询时间过长,这时我们可以添加一个参数,强制使Hive转MapReduce任务执行。set hive.fetch.task.conversion = none;在执行Sql前,先执行即可。...原创 2020-11-18 09:37:50 · 564 阅读 · 0 评论 -
Hive创建分区表时提示错误
Hive Session ID = c62308d5-0e71-4952-bacc-e1ce83f13005Logging initialized using configuration in file:/etc/ecm/hive-conf-3.1.1-1.1.6/hive-log4j2.properties Async: trueHive Session ID = a5683071-8eb9-4583-b7d9-a438ab176a86NoViableAltException(149@[]) .原创 2020-09-18 11:26:34 · 1372 阅读 · 0 评论 -
启动MapReduce任务执行查询set hive.fetch.task.conversion = none
执行hql之前,添加参数set hive.fetch.task.conversion = none;原创 2020-08-21 13:22:26 · 438 阅读 · 0 评论 -
Hive面试题1
1. hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜;...转载 2018-09-06 10:02:43 · 1002 阅读 · 0 评论 -
Hive数据库创建、表创建、数据加载
--创建数据库create database if not exists sopdmcomment ‘this is test database’with dbproperties(‘creator’=’gxw’,’date’=’2014-11-12’) --数据库键值对属性信息location ‘/my/preferred/directory’; --查看数据库的描述信...原创 2018-09-06 16:22:42 · 385 阅读 · 0 评论 -
mysql大表的解决方案,及Hive分页查询
先说一下遇到的问题,然后给出自己的解决方案,虽然不一定是最佳的解决方法,但是目前确实解决了公司的大表数据问题,如果其他小伙伴有更好的解决方法,也请多多交流,给出自己的解决方法。目前所有的数据和工具组件都是基于腾讯云搭建和管理,先说下我们遇到的情况:1.mysql表查询数据量较大(最大的一张表已经达到33亿条数据,整个mysql已经达到2.9T的数据存储),2.mysql表每日新增数据量...原创 2018-11-05 10:48:23 · 2584 阅读 · 0 评论