Hive
文章平均质量分 64
图文并茂的方式来跟踪、解析、理解hive技术及相关源代码
笑起来贼好看
歲月匆忙,偷得浮生半日閑。
展开
-
【大数据】Hive系列之- Hive-业务最常用的行转列CONCAT/列转行EXPLODE用法详解
concat_ws 它是一个特殊形式的 CONCAT()。分隔符可以是与剩余参数一样的字符串。解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此 基础上可以对拆分后的数据进行聚合。COLLECT_SET(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重 汇总,产生 Array类型字段。):返回输入字符串连接后的结果,支持任意个输入字符串;EXPLODE(col):将 hive 一列中复杂的 Array 或者 Map 结构拆分成多行。原创 2023-03-14 22:47:57 · 284 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-分桶表
分桶是将数据集分解成更容易管理的若干部分的另一个技术。 分区针对的是数据的存储路径;分桶针对的是数据文件。原创 2023-03-15 13:15:00 · 317 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-分区表(静态分区和动态分区)
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据 集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。原创 2023-03-15 09:15:00 · 682 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-DML 数据操作
Hive的DML操作,hive数据导入,数据导出原创 2023-03-14 20:29:11 · 742 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-DDL 数据定义
Hive - DDL (Data Define Language) 数据定义语言:常用的有CREATE和DROP,用于在数据库中创建新表或删除表,以及为表加入索引等原创 2023-03-14 07:34:30 · 248 阅读 · 0 评论 -
【大数据】Hive系列之- Hive3.1.3 安装教程
Hive-3.3.1 安装部署教程原创 2023-03-14 07:30:00 · 934 阅读 · 0 评论 -
【大数据】Hive查询(select 1)源代码分析详解
在 getMetaData的源代码中有 对 HDFS文件的操作,主要是创建 scratchFile(草稿目录)从日志以及最终的结果来看,select 1 慢的原因,与 操作库表元数据,HDFS交互有重大关系。在排查系统性能指标的过程中。发现 系统的 网络连接数,有非常多的 CLOSE_WAIT.源代码都是基于 apache-hive-3.1.2。结合日志和代码来定位 ,花费的时间都在。总共花费了 0.5 毫秒。原创 2023-01-22 11:58:10 · 1155 阅读 · 0 评论 -
【大数据Hadoop】Hadoop源代码调试(持续更新...)
hadoop 源代码 各个组件的调试,分析源代码,跟踪源代码,解析源代码,理解源代码,熟读源代码原创 2023-01-29 11:08:30 · 244 阅读 · 0 评论 -
【大数据HIVE】Hive 编译遇到Protobuf 2.5 不支持的问题
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,Hive编译报错,protobuf在mac的arm上报错原创 2023-01-28 10:32:21 · 717 阅读 · 0 评论 -
【大数据SQL测试】tpch压测
TPCH性能压测,功能压测,sql基准测试,sparksql性能测试,数据生成工具,如果你之前生成过数据表,可以执行make clean先清除一下再执行以下命令。执行dbgen,生成数据表,大小为2G。根据自己需要设定参数。原创 2023-01-27 20:02:01 · 540 阅读 · 0 评论 -
【大数据】Hive SQL执行全过程源码解析(Hive3.1)
看着有很多阶段,实际上很简单。Hive就是把SQL通过AST解析,然后遍历若干次(进行算子替换以及优化),最后再次遍历算子,如果为reduceSink操作符则划分出一个stage,类似Spark中通过shuffle来划分stage,生成MapReduce任务。最后将这些任务按照执行计划的顺序提交到Yarn上执行。原创 2023-01-26 17:42:37 · 870 阅读 · 0 评论 -
【大数据】Hive官方文档清单
hive文档整合,hive官方文档,hive常用手册原创 2023-01-22 08:59:23 · 622 阅读 · 0 评论