- 博客(12)
- 收藏
- 关注
原创 Hive核心优化
分桶就是分文件, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)
2024-01-29 15:08:54 1654
原创 Hadoop原理
问题1: 为什么要用分布式存储?分布式存储解决了单机存储容量有限的问题, 且带来了比较高的性能提升.细节: 横向扩展 = 加机器, 纵向扩展 = 加配置(硬件)问题9: HDFS的安全模式解释:概述:安全模式是HDFS自带的有一种保护机制, 在安全模式下, 只能读, 不能写. 进入安全模式的方式:启动Hadoop集群的时候, 会自动进入到安全模式, 进行自检. 自检没问题后, 会自动关闭安全模式.当活跃的节点数 < 默认的副本数时, 会强制进入到安全模式.
2024-01-20 19:53:05 1066
原创 Hive调优
如果HiveSQL必须要转成MR任务来执行, 则尽量在本机(本地)直接执行, 而不是交由Yarn来调度执行, 针对于数据量比较小的需求, 可以提高效率.并行执行: 默认Hive同一时间只能执行1个阶段, 如果多个阶段之间的依赖度比较低, 就可以开启并行执行, 让多个阶段同时执行, 降低MR job任务的执行时间.more: 默认的, 全表扫描, 查询指定的列, limit分页查询, 简单查询不走MR, 其它的要转MR任务.1. 这个严格模式是禁用低效的SQL, 和动态分区的严格模式没有任何关系.
2024-01-20 14:40:35 852
原创 Hive函数--窗口函数
概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能.目的、作用: 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用.格式: 能和窗口函数一起使用的函数 over(partition by 分组字段 order by 排序字段 rows between 起始行 and 结束行),能和窗口函数一起使用:聚合函数: count(), sum(), max(), min(), avg()
2024-01-20 14:12:38 487
原创 Hive常用函数
后来人们(程序员)发现用 UDF, UDAF, UDTF来划分hive函数太方便精准了, 于是在Hive2.X版本中提出了1个概念: 函数标准扩大化.函数就是开发者定义好的规则, 我们只要调用指定的函数, 传入对应的参数, 就能获取对应的结果, 我们无需关心函数内部是如何执行的, 只要会调用即可.可以把函数理解为是人们研发的机器, 不同的机器所需的原材料(参数)是不一样的, 传入不同的原材料(参数), 就会获取不同的结果.例如: count(), max(), sum(), avg(), min()
2024-01-14 20:15:22 813
原创 大数据技术之Hive
分布式SQL计算1.以分布式的形式,执行SQL语句,进行数据统计分析2.对数据进行统计分析,SQL是目前最为方便的编程工具。3.大数据体系中充斥着非常多的统计分析场景,使用SQL去处理数据,在大数据中是有极大的需求的4.不过MapReduce支持程序开发(Java、Python等),但不支持SQL直接进行开发,所以,我们要用到Apache Hive(一款分布式SQL计算的工具), 其主要功能是:将SQL语句 翻译成MapReduce程序运行。
2024-01-14 00:47:20 1437
原创 Mysql介绍及习题
MySQL是关系型数据库 MySQL一张表数据可以达到千万数据量 MySQL支持标准SQL语言SQL结构化查询语言,专门用于操作数据库语言DDL语言 操作数据库和表整体DML语言 对数据库的内容进行增删改DQL语言 对数据表内容进行查询。
2024-01-11 21:20:27 698
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人