自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 【大数据】Hive调优

Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。

2023-10-15 18:57:24 224

原创 【大数据】Hive函数+分区表和分桶表+文件格式和压缩

Hive自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。一进一出。用户自定义聚合函数,多进一出。类似于:count/max/min用户自定义表生成函数,一进多出。如lateral view explode()编程步骤(1)继承Hive提供的类(2)实现类中的抽象方法。

2023-10-05 22:21:48 237

原创 【大数据】Hive查询、函数

Distribute By:在有些情况下,我们需要控制某个特定行应该到哪个Reducer,通常是为了进行后续的聚集操作。本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。注意:连接n个表,至少需要n-1个连接条件。

2023-10-01 12:56:42 185

原创 【大数据】Hive_DDL、DML

(1)语法(2)案例-- 创建一个数据库,不指定路径-- 创建一个数据库,指定路径-- 创建一个数据库,带有dbproperties若不指定路径,其默认路径为。

2023-09-29 18:10:39 81

原创 【大数据】Hive入门

Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。需求,统计单词出现个数。(1)在Hadoop课程中我们用MapReduce程序实现的,当时需要写Mapper、Reducer和Driver三个类,并实现对应逻辑,相对繁琐。(2)如果通过Hive SQL实现,一行就搞定了,简单方便,容易理解。

2023-09-17 20:30:12 101 1

原创 【MySQL】触发器+锁

为了避免DML在执行时,加的行锁与表锁的冲突,在InnoDB中引入了意向锁,使得表锁不用检查每行数据是否加锁,使用意向锁来减少表锁的检查。全局锁就是对整个数据库实例加锁,加锁后整个实例就处于只读状态,后续的DML的写语句,DDL语句,已经更新操作的事务提交语句都将被阻塞。锁定粒度大,发生锁冲突的概率最高,并发度最低。InnoDB的数据是基于索引组织的,行锁的通过对索引上的索引项来加锁实现的,而不是对记录加的锁。其典型的使用场景是做全库的逻辑备份,对所有的表进行锁定,从而获取一致性的视图,保证数据的完整性。

2023-09-14 21:57:58 294 1

原创 【MySQL】视图+存储过程

视图(view)是一种虚拟存在的表。视图中的数据并不存在数据库中实际存在,行和列数据来自定义视图的查询中使用过的表,并且是在使用视图时动态生成的(视图的数据不是唯一的,而是随着表的数据变化而变化)通俗的讲,视图只保存了查询的SQL逻辑,不保存查询的结果。所以我们在创建视图的时候,主要的工作就落在创建这条SQL语句上。创建create [or replace] view 视图名称[(列名列表)] as select语句 [with[cascaded|local] check option]

2023-09-10 13:52:32 605 1

原创 【MySQL】索引+SQL优化

索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。优势劣势提高数据检索的效率,降低数据库的IO成本索引列也是要占用空间的通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗索引大大提高了查询效率,同时也降低更新表的速度,如对表进行INSERT/UPDATE/DELETE时,效率降低索引结构描述。

2023-09-10 11:58:34 127 1

原创 【MySQL】存储引擎

存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也可被称为表类型。在选择存储引擎时,应该根据应用系统的特点选择合适的存储引擎。InnoDB是一种兼顾高可靠和高性能的通用存储引擎,在MySQL5.5之后,InnoDB是默认的MySQL存储引擎。Memory引擎的表数据是存储在内存中的,由于受到硬件问题、或断电问题的影响,只能将这些表作为临时表或缓存使用。(4)InnoDB的逻辑存储结构。查看当前数据库支持的存储引擎。在创建表时,指定存储引擎。

2023-08-27 10:53:18 61

原创 【大数据】Hadoop_Yarn

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn 是一个通用的资源管理系统和调度平台,可以为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。虽然 Yarn 属于Hadoop的一部分,但是Yarn不仅仅能运行 MapReduce,还可以运行 Tez、HBase、Spark、Flink等等程序,理论上支持各种计算程序。

2023-08-24 23:12:13 153 2

原创 【大数据】Hadoop_MapReduce(三)

(1)压缩的好处和坏处压缩的优点:以减少磁盘 IO、减少磁盘存储空间。压缩的缺点:增加 CPU 开销。(2)压缩原则运算密集型的 Job,少用压缩IO 密集型的 Job,多用压缩。

2023-08-20 15:03:55 70 1

原创 【大数据】Hadoop_MapReduce(二)

(1)自定义类继承Partitioner,重写getPartition()方法@Override// 控制分区代码逻辑… …(2)在Job驱动中,设置自定义Partitioner(3)自定义Partition后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask如果 ReduceTask的数量 > getPartition的结果数,程序可以正常运行,但是会产生几个空的输出文件,最后几个分配的节点没有处理数据,空耗资源;

2023-08-19 17:17:43 242

原创 【大数据】Hadoop_MapReduce(一)

MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。序列化:把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化:将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化?

2023-08-13 15:04:22 204 1

原创 【大数据】Hadoop_HDFS

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景。

2023-08-11 22:56:43 261 1

原创 【Linux】Shell脚本编程

Shell是Linux系统的用户界面,它提供用户与内核的一种交互方式。它接收用户输入的命令,并把它送入内核去执行,是一个命令解释器Shell 既是一种命令语言,又是一种程序设计语言(Shell脚本)。作为命令语言,它交互式解释和执行用户输入的命令或者自动地解释和执行预先设定好的一连串的命令;作为程序设计语言,它定义了各种变量和参数,并提供了许多在高级语言中才具有的控制结构,包括循环和分支。Shell脚本就是将命令写入文本中,文本可以被执行。

2023-08-06 20:08:44 2294

原创 【大数据】Hadoop运行模式(集群搭建)

Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。

2023-08-06 15:18:15 1290 1

原创 【大数据】Hadoop运行环境搭建

自动进入图形界面安装—>选择中文(安装过程中使用的语言,不代表操作系统的语言),继续—>修改时区、日期和时间—>软件选择可以选择最小安装或者GNOME桌面安装,本次选择桌面版。中的主机名配置信息,例如将主机名配置为hadoop100(后面的几台集群中主机为hadoop101、hadoop102、hadoop103组成集群)点击安装—>安装的过程中可以配置root密码—>等安装完成,点击重启—>重启进来之后,点开许可协议,选择我同意许可协议—>点击完成配置。-n1 每次只取一个结果作为命令参数。

2023-07-30 15:12:57 1690 1

原创 【大数据】Hadoop概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是一个更广泛的概念——Hadoop生态圈。Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。整个集群资源(内存、CPU等)的老大。单个节点服务器资源的老大。单个任务运行的老大。Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如。

2023-07-29 18:54:19 596

原创 【Linux】常用基本命令(三)

(1) 基本语法du 目录/文件(显示目录下每个子目录的磁盘使用情况)(2) 选项说明(3) 案例实操。

2023-07-22 19:30:00 151 1

原创 【Linux】常用基本命令(二)

注意:使用 su 命令时,有 - 和没有 - 是完全不同的,- 选项表示在切换用户身份的同时,连当前使用的环境变量也切换成指定用户的。用户组的管理涉及用户组的添加、删除和修改。注意:如果要删除的用户已经使用过系统一段时间,那么此用户可能在系统中留有其他文件,因此,如果我们想要从系统中彻底的删除某个用户,最好在使用userdel 命令之前,先通过 find -user 用户名 命令查出系统中属于该用户的文件,然后在加以删除。Linux系统是一种典型的多用户系统,不同的用户处于不同的地位,拥有不同的权限。

2023-07-21 21:05:50 111 1

原创 【Linux】常用基本命令(一)

Linux的命令体系提供了大量的命令和选项,用户可以根据自己的需要选择合适的命令和选项,满足各种不同的需求。Shell 可以看作是一个命令解释器,为我们提供了交互式的文本控制台界面。我们可以通过终端控制台来输入命令,由 shell 进行解释并最终交给内核执行。

2023-07-16 16:03:27 167 1

原创 【Linux】入门+基础

Linux内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

2023-07-15 17:38:28 205 1

原创 MySQL基础(下)

概念:约束是作用于表中字段上的规则,用于限制存储在表中的数据。目的:保证数据库中数据的正确、有效性和完整性。分类:约束描述关键字非空约束限制该字段的数据不能为nullnot null唯一约束保证该字段的所有数据都是唯一、不重复的unique主键约束主键是一行数据的唯一标识,要求非空且唯一默认约束保存数据时,如果未指定该字段的值,则采用默认值default检查约束(8.0.1版本后) 保证字段值满足某一个条件check外键约束。

2023-07-08 18:18:29 87

原创 MySQL基础(上)

数据库:存储数据的仓库,数据是有组织的进行存储。数据库管理系统:操纵和管理数据库的大型软件。SQL:操作关系型数据库的编程语言,定义了一套操作关系型数据库统一标准。create database [ if not exists ] 数据库名 [ default charset 字符集 ] [ collate 排序规则 ];drop database [ if exists ] 数据库名;use 数据库名;

2023-07-07 23:46:47 271 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除