你的玉哥-CSDN博客

目录一、进程与线程1、什么是进程和线程2、两者之间的联系与区别3、为什么程序计数器、虚拟机栈和本地⽅法栈是线程私有的呢？为什么堆和⽅法区是线程共享的呢？4、线程的五种状态一、进程与线程1、什么是进程和线程进程是程序的⼀次执⾏过程，是系统运⾏程序的基本单位，因此进程是动态的。系统运⾏⼀个程序即是⼀个进程从创建，运⾏到消亡的过程。线程与进程相似，但线程是⼀个⽐进程更⼩的执⾏单位。⼀个进程在其执⾏的过程中可以产⽣多个线程。与进程不同的是同类的多个线程共享进程的堆和⽅

2022-07-28 22:01:08 424

原创 Doris数据仓库总结

doris学习总结

2022-06-17 17:54:09 17656 2

原创阿里巴巴OneData大数据建设方法论(精华)

OneData大数据建设方法论/数据仓库/模型设计/总体实施流程

2022-06-08 18:25:02 1165

原创 Mysql相关题目

1.方法一：(子查询的方式)select order_num, total_price from( select order_num, sum(item_price*quantity) as total_price from OrderItemsgroup by order_num)t1where t1.total_price >=1000order by order_num；方法二：having语句的使用SELECT order_num, SUM(i...

2022-04-15 17:38:04 2114

原创 Hive---数据倾斜的产生及解决方法

一、数据倾斜的定义数据倾斜是指在并行进行数据处理的时候，由于单个partition的数据显著多余其他部分，分布不均匀，导致大量数据集中分布到一台或者某几台计算节点上，使得该部分的处理速度远低于平均计算速度，成为整个数据集处理的瓶颈，从而影响整体计算性能。二、几种数据倾斜的解决方案1、空值引发的数据倾斜在数据采集时，判断导致数据倾斜的key是不是提前过滤掉了。在inner join，也就是使用内连接时，hive默认过滤掉了空值，但对于left join等等，会保留左边有的值...

2022-04-01 18:24:29 7904 3

原创 Hql的经典例题(详细分类)

参考：窗口函数详解https://www.icode9.com/content-4-140834.html参考：百度安全验证https://baijiahao.baidu.com/s?id=1711652301264801200&wfr=spider&for=pc理论：一、窗口函数over()和group by 的区别：聚合函数作用于由 GROUP BY 子句聚合的组，而窗口函数则作用于一个窗口，这里，窗口是由一个 OVER 子句定义的多行记录。聚合函数对其所作用的每一组记录

2022-03-22 12:20:34 1926

转载 Hive解析Json格式的日志文件

搬运自：(35条消息) 【Hive】解析json（get_json_object）_喜东东cc的博客-CSDN博客_get_json_objectget_json_object(string json_string, string path)说明：第一个参数填写json对象变量，第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组；如果输入的json字符串无效，那么返回NULL。每次只能返回一个数据项。例子：data 为 test表中的字段，数据结构如下：data

2022-03-16 21:00:38 315

转载 Mysql面试基础知识（全）

来源：作者：程序员大彬链接：MySQL面试题总结_笔经面经_牛客网来源：牛客网本文目录：事务的四大特性？数据库的三大范式事务隔离级别有哪些？索引什么是索引？索引的优缺点？索引的作用？什么情况下需要建索引？什么情况下不建索引？索引的数据结构 Hash索引和B+树索引的区别？为什么B+树比B树更适合实现数据库索引？索引有什么分类？什么是最左匹配原则？什么是聚集索引？什么是覆盖索引？索引的设计原则？ ...

2022-02-24 17:16:11 3111

原创 Mysql的架构及常见优化问题

一、Mysql的架构Mysql的架构主要有两层：Service层和存储引擎层。Service层：包括连接器、查询缓存、分析器、优化器、执行器等。包括了很多的 MySQL 功能服务、内置函数（时间、日期、数学等）。存储引擎层：用于负责数据的存储和提取。支持多种存储引擎，早期是 MyISAM，MySQL 5.5 之后默认是 InnoDB 引擎(还有MEMORY引擎，基于内存，数据易丢失。Archive引擎)。从图中我们可以知道，不同的存储引擎共用一个Server层。二、sql中se..

2022-02-24 17:02:04 1931

原创海量数据Top-k问题如何处理以及大数据查询如何优化

1、海量数据的Top-K问题和大数据量的查询如何进行优化。

2022-02-19 15:50:38 2012

原创计算机网络重要知识

目录一、三次握手的过程二、四次挥手的过程三、常见的问题1、为什么不能用两次握手进行连接2、为什么连接的时候是三次握手，关闭的时候却是四次握手3、如果已经建立了连接，但是客户端突然出现故障了怎么办？一、三次握手的过程第一次握手：起初两端都处于CLOSED关闭状态，Client将标志位SYN置为1，随机产生一个值seq=x，并将该数据包发送给Server，Client进入SYN-SENT状态，等待Server确认；第二次握手：Server收到数据包后由标志..

2022-02-18 17:41:48 3174

原创 Hadoop---Hdfs HA即NameNode的高可用

一、为什么引入高可用因为namenode存在单点失效问题。如果namenode失效了，那么所有的客户端，包括MR作业，均无法读或者写文件，因为你namenode是唯一存储元数据与文件到数据库映射的地方。即使使用了2NN节点，也无法做到做到完全恢复，因为2NN不算是namenode的一个热备。二、Hdfs的高可用1、机制HDFS HA配置了一对活动-备用namenode。当活动namenode失效。备用namendoe就会接管它的任务并开始服务与来自客户端的请求，不会有任何明显的中断。2、

2022-02-16 22:19:54 1153

原创 Hadoop相关知识点

目录一、Hadoop的序列化和反序列化二、Hadoop数据压缩1、优缺点2、常用的压缩算法3、怎么选择？三、Hadoop各个版本的区别1、hadoop2.x相比hadoop1.x2、hadoop3.x相比hadoop1.x四、Hadoop的常见端口号及常用的配置文件1、常用端口号2、常用配置文件一、Hadoop的序列化和反序列化序列化：把内存中的对象，转化为字节序列（或者其他数据传输协议）以便于存储到磁盘（持久化）和网络传输反序列化：将收到的

2022-02-16 16:58:00 601

原创 Hadoop---MapReduce基本流程及常见问题(详细)

一、MapReduce的核心思想（1）分布式的运算程序往往需要分成至少 2 个阶段。（2）第一个阶段的 MapTask 并发实例，完全并行运行，互不相干。（3）第二个阶段的 ReduceTask 并发实例互不相干，但是他们的数据依赖于上一个阶段的所有 MapTask 并发实例的输出。（4）MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段，如果用户的业务逻辑非常复杂，那就只能多个 MapReduce 程序，串行运行。二、MapReduce的整个工作流程1..

2022-02-16 15:44:08 3262

原创 Hadoop面试题---Yarn的三个调度器和调度算法

一、Yarn的三种调度器（1）先进先出调度器（FIFO）（2）容量调度器(默认)（Capacity Scheduler）（3）公平调度器（Fair Scheduler）二、具体细节和调度算法1、先进先出调度器（FIFO）单队列，根据作业的提交顺序，先来先服务。（一般不用）2、容量调度器(默认)（Capacity Scheduler）特点：1、多队列：每个队列可配置一定的资源量，每个队列采用FIFO调度策略。2、容量保证：管理员可为每个队列设置资源最低保证和资源使用上限。3、灵活性：如果一

2022-02-15 15:31:41 3573 1

原创 Hadoop面试题---Yarn的作用以及工作机制

一、Yarn的作用在大数据生态环境中，yarn主要有两个作用：资源管理和程序调度。二、Yarn的组成主要由ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。三、Yarn的基础架构（1）ResourceManager作用：1）处理客户端请求；2）监控NodeManager，对各个NodeManager上的资源进行统一管理和调度；3）给ApplicationMaster分配空闲的Container运行并监控其运行状态；

2022-02-13 23:23:40 6479

转载 Hadoop面试题---Hdfs的文件快大小和什么有关系

一、Hdfs的文件块大小1、HDFS 中的文件在物理磁盘上是通过分块存储的，块的大小可以通过参数配置（dfs.blocksize）来决定，在 Hadoop >= 2.x 版本中是 128M，Hadoop1.x是 64M；二、一个例子1、假如磁盘的寻址时间约为 10ms，即查找到目标 Block 的时间为 10ms2、根据规定，寻址时间为传输时间的 1%时，为最佳状态。因此传输时间= 10ms / 0.1 = 1s3、若磁盘的传输速率为 100M/s4、那么块的大小最佳为 100M。5、

2022-02-11 18:58:58 758

原创 Hadoop面试题---NN、DN以及2NN的工作机制

一、NN和2NN的工作机制1.首先，我们做个假设，如果存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。**因此产生在磁盘中备份元数据的 FsImage。**2.这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新 FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦 NameNode 节点断电，就会产生数据丢失。因此，引入

2022-02-11 18:51:27 1617

原创 Hadoop面试题---hdfs的读写流程

一、Hdfs的写流程总体流程：1、客户端通过Distributed FileSystem 模块的create()方法向NameNode请求上传文件，并告诉namenode上传文件的文件名、文件大小、文件拥有者，NameNode检查目标文件是否已存在，父目录是否存在；2、NameNode 返回是否可以上传；3、客户端请求我的第一个 Block 上传到哪几个 DataNode 服务器上；4、NameNode 返回 3 个 DataNode 节点，分别为 dn1、dn2、dn3（每个文件块默认存储在三

2022-02-11 16:53:01 1046

原创频繁项集挖掘以及关联规则的基本概念

一.几个基本概念1.支持度计数：即包含含特定项集的事务个数。2.支持度：计算方式：对于关联规则X–>Y，s=support(X∪Y）/N，其中，N为事务的个数，support(X∪Y)为项集{X，Y}的支持度计数。3.置信度：对于关联规则X–>Y，c=support(X∪Y）/support(X)。4.为什么要使用支持度和置信度？支持度：是一种重要度量，因为支持度很低的规则可能只是偶然出现。因此，支持度通常用来删去那些毫无意义的规则。置信度：对于给定的规则X–>Y,置信度越高

2022-02-11 16:26:02 3617

qq_39872456的博客

原创 Hive---常见问题

原创操作系统相关知识