自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 常见大厂面试题(SQL)02

原表charging_data。

2024-04-25 09:00:00 292 1

原创 常见大厂面试题(SQL)01

【代码】常见大厂面试题(SQL)01。

2024-04-24 09:00:00 440

原创 Oracle 窗口函数 02 (排名问题)

窗口函数也叫作OLAP(Online Analytical Processing,联机分析处理)函数,可以对数据库中的数据进行复杂分析。<窗口函数> over(partition by<用于分组的列名>order by <用于排序的列名>)

2024-04-22 09:00:00 909

原创 Oracle 基础 01(表操作)

ORACLE 数据库系统是美国 ORACLE 公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S 体系结构的数据库之一。ORACLE 通常应用于大型系统的数据库产品。ORACLE 数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。

2024-04-21 08:15:00 1317 1

原创 Oracle 基础(物化视图)

视图是一个虚拟表(也可以认为是一条语句),基于它创建时指定的查询语句返回的结果集。每次访问它都会导致这个查询语句被执行一次。为了避免每次访问都执行这个查询,可以将这个查询结果集存储到一个物化视图(也叫实体化视图)。物化视图与普通的视图相比的区别是物化视图是建立的副本,它类似于一张表,需要占用存储空间。而对一个物化视图查询的执行效率与查询一个表是一样的。

2024-04-20 08:45:00 1407

原创 Oracle 基础(视图)

视图是一种数据库对象,是从一个或者多个数据表或视图中导出的虚表,视 图所对应的数据并不真正地存储在视图中,而是存储在所引用的数据表中,视图的结构和数据是对数据表进行查询的结果。根据创建视图时给定的条件,视图可以是一个数据表的一部分,也可以是多个基表的联合,它存储了要执行检索的查询语句的定义,以便在引用该视图时使用。使用视图的优点:1.简化数据操作:视图可以简化用户处理数据的方式。2.着重于特定数据:不必要的数据或敏感数据可以不出现在视图中。

2024-04-19 17:49:05 1074 1

原创 VMware虚拟机连接不上远程连接工具解决办法

VMware虚拟机连接不上Xshell(远程连接工具)、DataGrip(虚拟机数据库连接不上windows的数据库工具)。然而远程连接工具的ip和DataGrip的SQL连接配置的都对,但是就是连不上。前提是之前可以连接成功。

2024-04-02 13:34:18 475 1

原创 Hadoop必会面试题

分布式: 多台机器做不同的事情, 然后组成1个整体.集群: 多台机器做相同的事情多台机器既可以组成 中心化模式(主从模式), 也可以组成 去中心化模式(主备模式)A.员工1和A.员工2的关系是集群,A.员工1和B.员工1的关系是分布式分布式存储解决了单机存储容量有限的问题, 且带来了比较高的性能提升. 例如: 3台服务器, 就是3倍的传输效率, 读写效率...细节: 横向扩展 = 加机器, 纵向扩展 = 加配置(硬件)安全模式是HDFS自带的有一种保护机制, 在安全模式下, 只能读, 不能写.

2024-03-11 11:40:29 988 1

原创 大数据必会面试题

8. 计算任务执行结束后, APPMaster将执行结果发送给RM, 并启动自毁, 告知Yarn(RM), 可以回收该任务所占用的资源了(Container资源容器).旧集群: 参考(节点)最后一次更新的事务id, 优先投票给事务id大的节点(机器), 如果事务id一致, 则参考 myid值, 投票给myid值大的机器.4. 溢写线程会将环形缓冲区中的结果写到磁盘的小文件中, 当MapTask任务结束的时候, 会对所有的小文件(10个/次)合并, 形成1个大的磁盘文件.

2024-03-07 10:32:16 1018 1

原创 HiveSQl 常见的优化手段07

分文件的, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)如何构建一个分桶表呢?create table 表名(字段 类型 ,......) [comment '表的描述信息']

2024-02-02 08:30:00 968

原创 HiveSQL调优06

select*,fromHive调优总结:1. 改硬件.2. 开启或者增大某些设置(配置). 负载均衡, 严格模式(禁用低效SQL), 动态分区数...3. 关闭或者减小某些设置(配置). 严格模式(动态分区), 推测执行...4. 减少IO传输. Input(输入)/Output(输出), 列存储orc, 压缩协议snappy, join优化。

2024-01-29 08:00:00 869

原创 HiveSQL高阶函数05

6. 常用的 可以结合窗口函数一起用的函数 主要有: count(), sum(), row_number(), rank(), lag()6. 常用的 可以结合窗口函数一起用的函数 主要有: count(), sum(), row_number(), rank(), lag()这里的排序函数指的是: row_number(), rank(), dense_rank(), 它们都可以做排名, 不同的是, 对相同值的处理结果.select explode(map(11, 22, 33));

2024-01-24 08:00:00 924 1

原创 HiveSQL基础命令04

json_tuple(json字符串, '键名1', '键名2', '键名3'...) as (别名1, 别名2, 别名3...)select date_add('2024-01-10 13:14:21', -2);

2024-01-21 08:00:00 822

原创 HiveSQL基础命令03

目录一、分桶查询 概述:示例二、随机抽样概述:示例三、正则查询四、union联合查询五、CTE表达式1.格式:2.cte结合union使用3.cte结合full outer join使用4.cte结果设置永久存储六、Hive函数划分概述:1.UDF 普通函数2.UDAF 聚合函数 3.UDTF 表生成函数二、随机抽样概述:示例三、正则查询常用的正则规则(通用): . 代表任意的1个字符 \. 代表1个普通的. 没

2024-01-18 08:00:00 799

原创 HiveSQL基础命令02

分区是针对文件夹(内部文件例如.txt也会被分),原理和SQL的group by类似,是将原表中一个或多个文件,通过给新字段对应原表字段分区,分成多个文件夹存放文件,存放到分区表中,这样在扫描特定文件(以分区字段来查询)的时候不需要全盘扫描。3. 分桶规则用的是: 哈希取模分桶法, 简单来说, 就是根据分桶字段计算它的哈希值, 然后和桶的个数取余, 余数为几, 就进哪个桶。分桶 = 分文件, 相当于把数据 根据分桶字段, 拆分成N个文件.哈希值: 根据值的内容, 内存地址值等信息, 计算出来的1个数字.

2024-01-16 12:14:08 940 1

原创 HiveSQL基础命令01

Hive的本质就是: 把HDFS文件映射成Hive表, 然后就可以写HQL来操作它了, 底层会被解析成MR任务, 交由Yarn调度执行, 所需的数据源及执行结果会保存到HDFS上...1. 去MySQL的hive3数据库中, 修改Hive的码表信息. 因为Hive的元数据(表名, 列名, 数据类型, 描述信息等)都是在MySQL中存储的.在Linu文件x系统中, vim打开文件查看,显示为: ^A 快捷键: ctrl + v, ctrl + a。string 字符串。

2024-01-14 21:49:13 1044 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除