hive
文章平均质量分 74
未来影子
曾先后在百度、理想、快手参与研发工作
后端、大数据、NLP学习者
展开
-
Hive面试重点
文章目录Hive介绍Hive架构(重点)Hive内外部表(重点)Hive建表语句Hive数据倾斜以及解决方案(重点)Hive的自定义函数Hive的sort by、distribute by、cluser by、order by区别Hive分区和分桶的区别HQL转化为MR的过程Hive的存储引擎和计算引擎1、计算引擎2、存储引擎Join的操作原理1、Common Join2、Map Join3、SMB JoinHive上传数据到HDFS,小文件问题Hive保存元数据的方式Hive开窗函数Hive介绍提供了原创 2022-05-02 12:26:07 · 1519 阅读 · 0 评论 -
Hive实战
Hive实战训练准备工作:1)目标表分析创建原始数据表:gulivideo_ori,gulivideo_user_ori,创建最终表:gulivideo_orc,gulivideo_user_orc2)创建原始数据表:create table gulivideo_ori(videoId string,uploader string,age int,category array<string>,length int,views int,rate float,ratings int转载 2022-01-24 14:28:53 · 328 阅读 · 0 评论 -
在添加tez引擎之后,2.6 GB of 2.1 GB virtual memory used. Killing container
在添加tez引擎之后,2.6 GB of 2.1 GB virtual memory used. Killing containe Application application_1642949186322_0005 failed 2 times due to AM Container for appattempt_1642949186322_0005_000002 exited with exitCode: -103Failing this attempt.Diagnostics: [2022-01原创 2022-01-23 23:30:25 · 714 阅读 · 0 评论 -
企业级调优
文章目录一、Fetch抓取二、本地模式三、表的优化1.小表大表Join(MapJOIN)2.大表Join大表1)空KEY过滤2)空KEY转换3)SMB(Sort Merge Bucket join)3.Group By4.Count(Distinct) 去重统计5.笛卡尔积6.行列过滤7.分区、分桶四、合理设置 Map 及 Reduce 数1.复杂文件增加 Map 数2.小文件进行合并3.合理设置Reduce数1)调整 reduce 个数方法一2)调整 reduce 个数方法二五、并发执行六、严格模式1)分原创 2022-01-23 21:45:22 · 143 阅读 · 0 评论 -
压缩和存储
文章目录一、Hadoop压缩配置1.MR支持的压缩编码2.压缩参数配置二、开启Map输出阶段压缩(MR引擎)三、开启 Reduce 输出阶段压缩四、文件存储格式1.行、列式存储2.TextFile 格式3.Orc 格式4.Parquet 格式五、存储和压缩结合一、Hadoop压缩配置1.MR支持的压缩编码为了支持多种压缩/解压算法,Hadoop引入了编码/解码器,如下所示:压缩格式对应的编码/解码器DEFLATEorg.apache.hadoop.io.compress.De原创 2022-01-23 21:42:39 · 778 阅读 · 0 评论 -
自定义UDF函数
自定义函数案例:文章目录自定义UDF函数1.需求2.前期maven工程准备3.编程实现4.导包5.导入hive中自定义UDTF函数1.需求2.编程实现3.导入hive中自定义UDF函数1.需求自定义一个UDF实现计算给定字符串的长度例如2.前期maven工程准备创建一个maven工程,导入依赖<dependencies><dependency><groupId>org.apache.hive</groupId><artifactId原创 2022-01-23 21:40:14 · 2059 阅读 · 0 评论 -
分区及分桶表
文章目录分区表分区表的基本操作1)创建分区表语法:2)加载数据到分区表中4)查询分区表中数据5)增加分区6)删除分区7)查看分区表有多少分区8)查看分区表结构二级分区1)创建二级分区表2)正常的加载数据3)把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式动态分区参数设置分桶表1)先创建分桶表2)分桶表操作需要注意的事项3)insert 方式将数据导入分桶表抽样查询分区表分区表的基本操作分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive原创 2022-01-22 22:55:30 · 315 阅读 · 0 评论 -
Hive数据类型、数据库相关操作、表的相关操做、数据的导入导出
文章目录Hive数据类型1.基本数据类型2.集合数据类型案例实操3.类型转化数据库的相关操作1.创建数据库2.查询数据库3.修改数据库4.删除数据库表的相关操作1.建表2.管理表3.外部表4.管理表与外部表的互相转换5.重命名表6.增加/修改/替换列信息7.删除表DML数据操作1.数据导入1)向表中装载数据2)通过查询语句向表中插入数据(Insert)3) 查询语句中创建表并加载数据(As Select)4)创建表时通过Location指定加载数据路径5)Import数据指定Hive表中2.数据导出1)In原创 2022-01-22 22:10:50 · 950 阅读 · 0 评论 -
FAILED Execution Error, return code 2 from org
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方案①:hdfs dfsadmin -safemode leave解决方案②:set hive.exec.mode.local.auto=true;以上的方法,我用了后成功之后,运行其他的任务又报同样的错误了。无解,上http://hadoop102:19888/jobhistory查看历史任务,查找最终原因!!!原创 2022-01-22 22:08:46 · 1847 阅读 · 0 评论 -
Error Could not open client transport with JDBC Uri jdbchive2hadoop10210000 Failed to open new sessi
Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException)问题如上所述:解决方案:配置原创 2022-01-19 22:50:25 · 1440 阅读 · 0 评论