疲惫的花卷-CSDN博客

原创常见大厂面试题（SQL）02

原表charging_data。

2024-04-25 09:00:00 292 1

原创常见大厂面试题（SQL）01

【代码】常见大厂面试题（SQL）01。

2024-04-24 09:00:00 440

原创 Oracle 窗口函数 02 (排名问题)

窗口函数也叫作OLAP（Online Analytical Processing，联机分析处理）函数，可以对数据库中的数据进行复杂分析。<窗口函数> over(partition by<用于分组的列名>order by <用于排序的列名>)

2024-04-22 09:00:00 909

ORACLE 数据库系统是美国 ORACLE 公司（甲骨文）提供的以分布式数据库为核心的一组软件产品，是目前最流行的客户/服务器(CLIENT/SERVER)或B/S 体系结构的数据库之一。ORACLE 通常应用于大型系统的数据库产品。ORACLE 数据库是目前世界上使用最为广泛的数据库管理系统，作为一个通用的数据库系统，它具有完整的数据管理功能；作为一个关系数据库，它是一个完备关系的产品；作为分布式数据库它实现了分布式处理功能。

2024-04-21 08:15:00 1317 1

原创 Oracle 基础（物化视图）

视图是一个虚拟表（也可以认为是一条语句），基于它创建时指定的查询语句返回的结果集。每次访问它都会导致这个查询语句被执行一次。为了避免每次访问都执行这个查询，可以将这个查询结果集存储到一个物化视图（也叫实体化视图）。物化视图与普通的视图相比的区别是物化视图是建立的副本，它类似于一张表，需要占用存储空间。而对一个物化视图查询的执行效率与查询一个表是一样的。

2024-04-20 08:45:00 1407

原创 Oracle 基础（视图）

视图是一种数据库对象，是从一个或者多个数据表或视图中导出的虚表，视图所对应的数据并不真正地存储在视图中，而是存储在所引用的数据表中，视图的结构和数据是对数据表进行查询的结果。根据创建视图时给定的条件，视图可以是一个数据表的一部分，也可以是多个基表的联合，它存储了要执行检索的查询语句的定义，以便在引用该视图时使用。使用视图的优点：1.简化数据操作：视图可以简化用户处理数据的方式。2.着重于特定数据：不必要的数据或敏感数据可以不出现在视图中。

2024-04-19 17:49:05 1074 1

原创 VMware虚拟机连接不上远程连接工具解决办法

VMware虚拟机连接不上Xshell（远程连接工具）、DataGrip（虚拟机数据库连接不上windows的数据库工具）。然而远程连接工具的ip和DataGrip的SQL连接配置的都对，但是就是连不上。前提是之前可以连接成功。

2024-04-02 13:34:18 475 1

原创 Hadoop必会面试题

分布式: 多台机器做不同的事情, 然后组成1个整体.集群: 多台机器做相同的事情多台机器既可以组成中心化模式(主从模式), 也可以组成去中心化模式(主备模式)A.员工1和A.员工2的关系是集群，A.员工1和B.员工1的关系是分布式分布式存储解决了单机存储容量有限的问题, 且带来了比较高的性能提升. 例如: 3台服务器, 就是3倍的传输效率, 读写效率...细节: 横向扩展 = 加机器, 纵向扩展 = 加配置(硬件)安全模式是HDFS自带的有一种保护机制, 在安全模式下, 只能读, 不能写.

2024-03-11 11:40:29 988 1

原创大数据必会面试题

8. 计算任务执行结束后, APPMaster将执行结果发送给RM, 并启动自毁, 告知Yarn(RM), 可以回收该任务所占用的资源了(Container资源容器).旧集群: 参考(节点)最后一次更新的事务id, 优先投票给事务id大的节点(机器), 如果事务id一致, 则参考 myid值, 投票给myid值大的机器.4. 溢写线程会将环形缓冲区中的结果写到磁盘的小文件中, 当MapTask任务结束的时候, 会对所有的小文件(10个/次)合并, 形成1个大的磁盘文件.

2024-03-07 10:32:16 1018 1

原创 HiveSQl 常见的优化手段07

分文件的, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)如何构建一个分桶表呢?create table 表名(字段类型 ,......) [comment '表的描述信息']

2024-02-02 08:30:00 968

原创 HiveSQL调优06

select*,fromHive调优总结:1. 改硬件.2. 开启或者增大某些设置(配置). 负载均衡, 严格模式(禁用低效SQL), 动态分区数...3. 关闭或者减小某些设置(配置). 严格模式(动态分区), 推测执行...4. 减少IO传输. Input(输入)/Output(输出), 列存储orc, 压缩协议snappy, join优化。

2024-01-29 08:00:00 869

原创 HiveSQL高阶函数05

6. 常用的可以结合窗口函数一起用的函数主要有: count(), sum(), row_number(), rank(), lag()6. 常用的可以结合窗口函数一起用的函数主要有: count(), sum(), row_number(), rank(), lag()这里的排序函数指的是: row_number(), rank(), dense_rank(), 它们都可以做排名, 不同的是, 对相同值的处理结果.select explode(map(11, 22, 33));

2024-01-24 08:00:00 924 1

原创 HiveSQL基础命令04

json_tuple(json字符串, '键名1', '键名2', '键名3'...) as (别名1, 别名2, 别名3...)select date_add('2024-01-10 13:14:21', -2);

2024-01-21 08:00:00 822

原创 HiveSQL基础命令03

目录一、分桶查询概述:示例二、随机抽样概述:示例三、正则查询四、union联合查询五、CTE表达式1.格式：2.cte结合union使用3.cte结合full outer join使用4.cte结果设置永久存储六、Hive函数划分概述：1.UDF 普通函数2.UDAF 聚合函数 3.UDTF 表生成函数二、随机抽样概述:示例三、正则查询常用的正则规则(通用): . 代表任意的1个字符 \. 代表1个普通的. 没

2024-01-18 08:00:00 799

原创 HiveSQL基础命令02

分区是针对文件夹（内部文件例如.txt也会被分），原理和SQL的group by类似,是将原表中一个或多个文件，通过给新字段对应原表字段分区，分成多个文件夹存放文件，存放到分区表中，这样在扫描特定文件（以分区字段来查询）的时候不需要全盘扫描。3. 分桶规则用的是: 哈希取模分桶法, 简单来说, 就是根据分桶字段计算它的哈希值, 然后和桶的个数取余, 余数为几, 就进哪个桶。分桶 = 分文件, 相当于把数据根据分桶字段, 拆分成N个文件.哈希值: 根据值的内容, 内存地址值等信息, 计算出来的1个数字.

2024-01-16 12:14:08 940 1

原创 HiveSQL基础命令01

Hive的本质就是: 把HDFS文件映射成Hive表, 然后就可以写HQL来操作它了, 底层会被解析成MR任务, 交由Yarn调度执行, 所需的数据源及执行结果会保存到HDFS上...1. 去MySQL的hive3数据库中, 修改Hive的码表信息. 因为Hive的元数据(表名, 列名, 数据类型, 描述信息等)都是在MySQL中存储的.在Linu文件x系统中, vim打开文件查看，显示为: ^A 快捷键: ctrl + v, ctrl + a。string 字符串。

2024-01-14 21:49:13 1044 1

2202_75300139的博客