![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive学习
文章平均质量分 83
学的头疼啊!
早安Naor
世有愚者,读方三年,便谓天下无病可治,及治病三年,乃知天下无方可用。
展开
-
Hadoop进阶
Hadoop框架各个底层的原理和各类机制原创 2023-11-16 16:17:17 · 94 阅读 · 0 评论 -
Hive调优
执行分组操作, 翻译后的MR, 分组的字段就是k2的字段, 按照k2进行分组操作, 将相同value合并在同一个集合中, 既然分组的字段就是MR的k2, 那么分区也会按照分组字段进行分区操作, 如果某个组下数据非常的多, 可能出现出现什么问题呢?查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。原创 2023-11-16 14:51:42 · 280 阅读 · 0 评论 -
Hive相关函数
Hive相关函数,行转列列转行实战,json文件处理,开窗函数的应用,数据脱敏函数,条件函数,日期函数,字符串函数,复杂类型函数,Hive函数的分类原创 2023-11-16 11:55:36 · 159 阅读 · 0 评论 -
Hive相关查询
在Hive中除了支持cross join(交叉连接,也叫做笛卡尔积)right outer join(右外连接)left outer join(左外连接)inner join(内连接)原创 2023-11-16 10:53:36 · 33 阅读 · 0 评论 -
Hive分区分桶表和复杂类型
Hive分区表和分桶表的创建,分区分桶表的区别,Hadoop_hive官方文档链接,Hive复杂类型,array类型,struct类型,map类型原创 2023-11-16 10:39:42 · 33 阅读 · 0 评论 -
Hive内外表的创建与区别和数据的导入导出
外表创建语法,内表创建语法,内外表区别,hdfs与Linux的数据导入和导出,load加载HDFS文件原创 2023-11-16 10:23:41 · 246 阅读 · 0 评论 -
Hive基础操作
create [external] table [if not exists] 表名(字段名 字段类型 , 字段名 字段类型 , ... )[partitioned by (分区字段名 分区字段类型)] # 分区表固定格式[clustered by (分桶字段名) into 桶个数 buckets] # 分桶表固定格式 注意: 可以排序[sorted by (排序字段名 asc|desc)]原创 2023-11-10 16:59:37 · 40 阅读 · 0 评论 -
Hadoop概述
Hadoop简介:是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。Hadoop起源: Doug Cutting 创建的,最早起源一个Nutch项目。三驾马车: 谷歌的三遍论文加速了hadoop的研发Hadoop框架意义: 作为大数据解决方案,越来越多的企业将Hadoop 技术作为进入大数据领域的必备技术。狭义上来说:Hadoop指Apache这款开源框架,它的核心组件有:HDFS,MR,YANR。原创 2023-11-10 16:39:37 · 31 阅读 · 0 评论 -
大数据导论
什么是大数据?狭义上: 对海量数据进行处理的软件技术体系广义上: 数字化、信息化时代的基础支撑,以数据为生活赋能狭义和广义联系: 学习狭义上的大数据软件技术体系,在工作中为广义上的数字化、信息化时代,添砖加瓦大数据解决了什么问题?问题1: 海量数据的存储问题2: 海量数据的计算问题3: 海量数据的传输大数据的核心工作?存储: 利用各类大数据技术栈,妥善保存海量待处理数据计算: 利用各类大数据技术栈,完成海量数据的价值挖掘传输: 利用各类大数据技术栈,协助各个环节的数据传输。原创 2023-11-10 16:19:14 · 56 阅读 · 0 评论