Hive
文章平均质量分 63
KayLa-JL
人不是生来被打败的!
展开
-
hive数据倾斜优化
在谈及数据倾斜的问题时,首先会想什么事数据倾斜?简而言之就是由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。容易数据...原创 2019-12-12 20:07:29 · 277 阅读 · 0 评论 -
hive表的信息查询:表结构,表查询。。。
1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table_coulm from table_nam原创 2017-03-29 22:56:35 · 5383 阅读 · 0 评论 -
hive 复制整段语句是出现 Display all 475 possibilities? (y or n)错误的处理方法
在用hive时,复制一整片代码运行,发现好多提示: Display all 475 possibilities? (y or n)导致复制失败,一查原因,原来是复制的代码中包含了Tab缩进,只要将原来复制的代码中的Tab空格全部去掉即可,完美解决问题~原创 2017-04-05 22:17:03 · 1048 阅读 · 0 评论 -
HIVE和HBASE区别
1. 两者分别是什么? Apache Hive是数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它是基于MapReduce算法。 Apache Hbase Key/Value,基础单元是cell,它运行在HDFS之上。和原创 2017-06-06 10:20:10 · 12935 阅读 · 2 评论 -
hive变量调用 hive和shell hdfs命令交互调用 hiverc预定义初始化
hive变量调用 hive和shell hdfs命令交互调用 hiverc预定义初始化 1 hive使用外部变量: 分为4种情况, hive中引用外部变量: 在代码中引用时使用${...};方式1:[root@h2single bin]# hive -d name=username; 随便定义变量 后在hive中使用此变量原创 2017-05-22 16:13:32 · 2298 阅读 · 0 评论 -
hive2.0函数大全
摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数 数学函数Return TypeName (Signature)翻译 2017-09-20 14:09:12 · 453 阅读 · 0 评论 -
CUBE和ROLLUP函数的用法及区别
SQL 中ROLLUP 用法ROLLUP 运算符生成的结果集类似于 CUBE 运算符生成的结果集。下面是 CUBE 和 ROLLUP 之间的具体区别:CUBE 生成的结果集显示了所选列中值的所有组合的聚合。ROLLUP 生成的结果集显示了所选列中值的某一层次结构的聚合。ROLLUP 优点:(1)ROLLUP 返回单个结果集,而 COMPUTE B原创 2017-11-28 20:31:03 · 678 阅读 · 0 评论 -
hql 优化
优化时,把hql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当...原创 2018-10-13 09:47:05 · 4391 阅读 · 1 评论 -
hive表的源文件存储格式
Hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大 数据解析开销大,压缩的text文件 hive无法进行合并和拆分(建表时不指定它会默认为这个格式,导入数据时会直接把数据文件拷贝到HDFS上不进行处理,源文件可以直接通过hadoop fs -cat 查看。)2.sequencefile二进制文件,以<key,value>的形式序...原创 2018-10-13 10:07:34 · 788 阅读 · 0 评论