自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hive核心优化

分桶就是分文件, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)

2024-01-29 15:08:54 1654

原创 Hadoop原理

问题1: 为什么要用分布式存储?分布式存储解决了单机存储容量有限的问题, 且带来了比较高的性能提升.细节: 横向扩展 = 加机器, 纵向扩展 = 加配置(硬件)问题9: HDFS的安全模式解释:概述:安全模式是HDFS自带的有一种保护机制, 在安全模式下, 只能读, 不能写. 进入安全模式的方式:启动Hadoop集群的时候, 会自动进入到安全模式, 进行自检. 自检没问题后, 会自动关闭安全模式.当活跃的节点数 < 默认的副本数时, 会强制进入到安全模式.

2024-01-20 19:53:05 1066

原创 Hive调优

如果HiveSQL必须要转成MR任务来执行, 则尽量在本机(本地)直接执行, 而不是交由Yarn来调度执行, 针对于数据量比较小的需求, 可以提高效率.并行执行: 默认Hive同一时间只能执行1个阶段, 如果多个阶段之间的依赖度比较低, 就可以开启并行执行, 让多个阶段同时执行, 降低MR job任务的执行时间.more: 默认的, 全表扫描, 查询指定的列, limit分页查询, 简单查询不走MR, 其它的要转MR任务.1. 这个严格模式是禁用低效的SQL, 和动态分区的严格模式没有任何关系.

2024-01-20 14:40:35 852

原创 Hive函数--窗口函数

概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能.目的、作用: 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用.格式: 能和窗口函数一起使用的函数 over(partition by 分组字段 order by 排序字段 rows between 起始行 and 结束行),能和窗口函数一起使用:聚合函数: count(), sum(), max(), min(), avg()

2024-01-20 14:12:38 487

原创 Hive常用函数

后来人们(程序员)发现用 UDF, UDAF, UDTF来划分hive函数太方便精准了, 于是在Hive2.X版本中提出了1个概念: 函数标准扩大化.函数就是开发者定义好的规则, 我们只要调用指定的函数, 传入对应的参数, 就能获取对应的结果, 我们无需关心函数内部是如何执行的, 只要会调用即可.可以把函数理解为是人们研发的机器, 不同的机器所需的原材料(参数)是不一样的, 传入不同的原材料(参数), 就会获取不同的结果.例如: count(), max(), sum(), avg(), min()

2024-01-14 20:15:22 813

原创 大数据技术之Hive

分布式SQL计算1.以分布式的形式,执行SQL语句,进行数据统计分析2.对数据进行统计分析,SQL是目前最为方便的编程工具。3.大数据体系中充斥着非常多的统计分析场景,使用SQL去处理数据,在大数据中是有极大的需求的4.不过MapReduce支持程序开发(Java、Python等),但不支持SQL直接进行开发,所以,我们要用到Apache Hive(一款分布式SQL计算的工具), 其主要功能是:将SQL语句 翻译成MapReduce程序运行。

2024-01-14 00:47:20 1437

原创 大数据技术之Hadoop

hadoop之父:道格 卡丁。

2024-01-13 18:30:04 1809

原创 Mysql介绍及习题

MySQL是关系型数据库 MySQL一张表数据可以达到千万数据量 MySQL支持标准SQL语言SQL结构化查询语言,专门用于操作数据库语言DDL语言 操作数据库和表整体DML语言 对数据库的内容进行增删改DQL语言 对数据表内容进行查询。

2024-01-11 21:20:27 698

原创 Linux常用命令(基础)

Linux常用命令

2024-01-10 21:01:28 466

原创 Linux常用命令(进阶)

Linux常用命令

2024-01-06 17:04:09 878

原创 python实践案例:学生信息管理系统(基础)

【代码】python实践案例:学生信息管理系统(基础)

2024-01-06 16:44:18 406

原创 Linux快捷键小技巧

Linux快捷键小技巧

2024-01-06 16:23:51 346

Mysql报表项目数据

Mysql报表项目数据

2024-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除