自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Hive---常见问题

。。

2022-08-11 16:55:44 1895

原创 操作系统相关知识

目录一、进程与线程1、什么是进程和线程2、两者之间的联系与区别3、为什么程序计数器、虚拟机栈和本地⽅法栈是线程私有的呢?为什么堆和⽅法区是线程共享的呢?4、线程的五种状态一、进程与线程1、什么是进程和线程进程是程序的⼀次执⾏过程,是系统运⾏程序的基本单位,因此进程是动态的。系统运⾏⼀个程 序即是⼀个进程从创建,运⾏到消亡的过程。线程与进程相似,但线程是⼀个⽐进程更⼩的执⾏单位。⼀个进程在其执⾏的过程中可以产⽣多 个线程。与进程不同的是同类的多个线程共享进程的堆和⽅

2022-07-28 22:01:08 424

原创 Doris数据仓库总结

doris学习总结

2022-06-17 17:54:09 17656 2

原创 阿里巴巴OneData大数据建设方法论(精华)

OneData大数据建设方法论/数据仓库/模型设计/总体实施流程

2022-06-08 18:25:02 1165

原创 Mysql相关题目

1.方法一:(子查询的方式)select order_num, total_price from( select order_num, sum(item_price*quantity) as total_price from OrderItemsgroup by order_num)t1where t1.total_price >=1000order by order_num;方法二:having语句的使用SELECT order_num, SUM(i...

2022-04-15 17:38:04 2114

原创 Hive---数据倾斜的产生及解决方法

一、数据倾斜的定义数据倾斜是指在并行进行数据处理的时候,由于单个partition的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到一台或者某几台计算节点上,使得该部分的处理速度远低于平均计算速度,成为整个数据集处理的瓶颈,从而影响整体计算性能。二、几种数据倾斜的解决方案1、空值引发的数据倾斜 在数据采集时,判断导致数据倾斜的key是不是提前过滤掉了。在inner join,也就是使用内连接时,hive默认过滤掉了空值,但对于left join等等,会保留左边有的值...

2022-04-01 18:24:29 7904 3

原创 Hql的经典例题(详细分类)

参考:窗口函数详解https://www.icode9.com/content-4-140834.html参考:百度安全验证https://baijiahao.baidu.com/s?id=1711652301264801200&wfr=spider&for=pc理论:一、窗口函数over()和group by 的区别:聚合函数作用于由 GROUP BY 子句聚合的组,而窗口函数则作用于一个窗口, 这里,窗口是由一个 OVER 子句 定义的多行记录。聚合函数对其所作用的每一组记录

2022-03-22 12:20:34 1926

转载 Hive解析Json格式的日志文件

搬运自:(35条消息) 【Hive】解析json(get_json_object)_喜东东cc的博客-CSDN博客_get_json_objectget_json_object(string json_string, string path)说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。每次只能返回一个数据项。例子:data 为 test表中的字段,数据结构如下:data

2022-03-16 21:00:38 315

转载 Mysql面试基础知识(全)

来源:作者:程序员大彬链接:MySQL面试题总结_笔经面经_牛客网来源:牛客网本文目录:事务的四大特性? 数据库的三大范式 事务隔离级别有哪些? 索引 什么是索引? 索引的优缺点? 索引的作用? 什么情况下需要建索引? 什么情况下不建索引? 索引的数据结构 Hash索引和B+树索引的区别? 为什么B+树比B树更适合实现数据库索引? 索引有什么分类? 什么是最左匹配原则? 什么是聚集索引? 什么是覆盖索引? 索引的设计原则? ...

2022-02-24 17:16:11 3111

原创 Mysql的架构及常见优化问题

一、Mysql的架构Mysql的架构主要有两层:Service层和存储引擎层。Service层:包括 连接器、查询缓存、分析器、优化器、执行器等。包括了很多的 MySQL 功能服务、内置函数(时间、日期、数学等)。存储引擎层:用于负责数据的存储和提取。支持多种存储引擎,早期是 MyISAM,MySQL 5.5 之后默认是 InnoDB 引擎(还有MEMORY引擎,基于内存,数据易丢失。Archive引擎)。从图中我们可以知道,不同的存储引擎共用一个Server层。二、sql中se..

2022-02-24 17:02:04 1931

原创 海量数据Top-k问题如何处理以及大数据查询如何优化

1、海量数据的Top-K问题和大数据量的查询如何进行优化。

2022-02-19 15:50:38 2012

原创 计算机网络重要知识

目录一、三次握手的过程二、四次挥手的过程三、常见的问题1、为什么不能用两次握手进行连接2、为什么连接的时候是三次握手,关闭的时候却是四次握手3、如果已经建立了连接,但是客户端突然出现故障了怎么办?一、三次握手的过程第一次握手:起初两端都处于CLOSED关闭状态,Client将标志位SYN置为1,随机产生一个值seq=x,并将该数据包发送给Server,Client进入SYN-SENT状态,等待Server确认; 第二次握手:Server收到数据包后由标志..

2022-02-18 17:41:48 3174

原创 Hadoop---Hdfs HA即NameNode的高可用

一、为什么引入高可用因为namenode存在单点失效问题。如果namenode失效了,那么所有的客户端,包括MR作业,均无法读或者写文件,因为你namenode是唯一存储元数据与文件到数据库映射的地方。即使使用了2NN节点,也无法做到做到完全恢复,因为2NN不算是namenode的一个热备。二、Hdfs的高可用1、机制HDFS HA配置了一对活动-备用namenode。当活动namenode失效。备用namendoe就会接管它的任务并开始服务与来自客户端的请求,不会有任何明显的中断。2、

2022-02-16 22:19:54 1153

原创 Hadoop相关知识点

目录一、Hadoop的序列化和反序列化二、Hadoop数据压缩1、优缺点2、常用的压缩算法3、怎么选择?三、Hadoop各个版本的区别1、hadoop2.x相比hadoop1.x2、hadoop3.x相比hadoop1.x四、Hadoop的常见端口号及常用的配置文件1、常用端口号2、常用配置文件​一、Hadoop的序列化和反序列化序列化:把内存中的对象,转化为字节序列(或者其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化:将收到的

2022-02-16 16:58:00 601

原创 Hadoop---MapReduce基本流程及常见问题(详细)

一、MapReduce的核心思想(1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。(3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有 MapTask 并发实例的输出。(4)MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段,如果用户的业务逻辑非常复杂,那就只能多个 MapReduce 程序,串行运行。二、MapReduce的整个工作流程1..

2022-02-16 15:44:08 3262

原创 Hadoop面试题---Yarn的三个调度器和调度算法

一、Yarn的三种调度器(1)先进先出调度器(FIFO)(2)容量调度器(默认)(Capacity Scheduler)(3)公平调度器(Fair Scheduler)二、具体细节和调度算法1、先进先出调度器(FIFO)单队列,根据作业的提交顺序,先来先服务。(一般不用)2、容量调度器(默认)(Capacity Scheduler)特点:1、多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度策略。2、容量保证:管理员可为每个队列设置资源最低保证和资源使用上限。3、灵活性:如果一

2022-02-15 15:31:41 3573 1

原创 Hadoop面试题---Yarn的作用以及工作机制

一、Yarn的作用在大数据生态环境中,yarn主要有两个作用:资源管理和程序调度。二、Yarn的组成主要由ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。三、Yarn的基础架构(1)ResourceManager作用:1)处理客户端请求;2)监控NodeManager,对各个NodeManager上的资源进行统一管理和调度;3)给ApplicationMaster分配空闲的Container运行并监控其运行状态;

2022-02-13 23:23:40 6479

转载 Hadoop面试题---Hdfs的文件快大小和什么有关系

一、Hdfs的文件块大小1、HDFS 中的文件在物理磁盘上是通过分块存储的,块的大小可以通过参数配置(dfs.blocksize)来决定,在 Hadoop >= 2.x 版本中是 128M,Hadoop1.x是 64M;二、一个例子1、 假如磁盘的寻址时间约为 10ms,即查找到目标 Block 的时间为 10ms2、根据规定,寻址时间为传输时间的 1%时,为最佳状态。因此传输时间= 10ms / 0.1 = 1s3、若磁盘的传输速率为 100M/s4、那么块的大小最佳为 100M。5、

2022-02-11 18:58:58 758

原创 Hadoop面试题---NN、DN以及2NN的工作机制

一、NN和2NN的工作机制1.首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。**因此产生在磁盘中备份元数据的 FsImage。**2.这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。因此,引入

2022-02-11 18:51:27 1617

原创 Hadoop面试题---hdfs的读写流程

一、Hdfs的写流程总体流程:1、客户端通过Distributed FileSystem 模块的create()方法向NameNode请求上传文件,并告诉namenode上传文件的文件名、文件大小、文件拥有者,NameNode检查目标文件是否已存在,父目录是否存在;2、NameNode 返回是否可以上传;3、客户端请求我的第一个 Block 上传到哪几个 DataNode 服务器上;4、NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3(每个文件块默认存储在三

2022-02-11 16:53:01 1046

原创 频繁项集挖掘以及关联规则的基本概念

一.几个基本概念1.支持度计数:即包含含特定项集的事务个数。2.支持度:计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。4.为什么要使用支持度和置信度?支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。置信度:对于给定的规则X–>Y,置信度越高

2022-02-11 16:26:02 3617

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除