- 博客(62)
- 收藏
- 关注
原创 菜鸡还没有找到工作(DAY44)
真的好想把他们都抽一顿,一群神经病,密码的,学分绩那么高和我抢保研,欺负我,欺负我!气死我了,一群胆小鬼。就来欺负我们大数据!如果考研的话就是明年三月份开始准备,也很麻烦,今年也不知道能不能找下实习,烦了。今天我跟我妈说我要用我家的扫帚把我们专业每个人都抽一顿。我不是很清楚如果想去国企的话我本科能不能找下合适的。今天我就要回哈尔滨了,其实我现在就在飞机上嘎嘎嘎。现在是最麻烦的状态,两手抓。呜呜呜呜呜真的不想回学校。算法,SQL,项目,八股。能找下合适的我就不考研了。我妈说那我还得回去高考。
2025-08-31 06:24:21
207
原创 菜鸡还没有找到工作(DAY43)
2.随后resourcemanager分配container,在合适的nodemanager上启动applicationmaster,此时的applicationmaster的功能相当于一个executorlaucher,只负责向resourcemanager申请executor内存。5.executor全部注册完后driver开始执行main函数,之后执行到action算子时,触发job,并根据宽依赖开始划分stage,每个stage生成对应的task,将task分发到各个executor上执行。
2025-08-28 22:39:59
569
原创 菜鸡还没有找到工作(DAY41)
LAST_VALUE(column):获取窗口内最后一行的数据(使用时需注意窗口框架!通常结合ROWS BETWEEN)。原理:将小的那份数据给每个maptask的内存都放一份完整的数据,底层不经过shuffle,需要占用内存空间存放小的数据文件。FIRST_VALUE(column):获取窗口内第一行的数据。LEAD(column, n):获取窗口内当前行之后第n行的数据。LAG(column, n):获取窗口内当前行之前第n行的数据。
2025-08-26 23:08:04
670
原创 菜鸡还没有找到工作(DAY40)
将更新的数据进行状态记录,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命周期。如果两张表按照相同的划分规则将各自的数据划分,join时可以实现桶与桶的join。分区表将数据划分到不同的目录存储,分桶表将数据划分到不同的文件进行存储。2.将hive中的拉链表与临时表的数据进行合并,合并结果写入临时表。删除表时,内部表所有数据都删除,外部表仅仅删除元数据。拉链表解决数仓中数据发生变化如何实现数据存储的问题。3.将临时表的数据覆盖写到拉链表中。
2025-08-25 23:28:45
374
原创 菜鸡还没有找到工作(DAY38)
2.RM分配container,与NM通信,container中启动appmaster。2.capicity 容量调度 将资源划分为不同队列,每个队列提交应用,使用该队列资源。将资源划分为不同队列,使所有应用在平均情况下随着时间的流逝可以获得相等的资源分配。3.appmaster向rm为各个任务申请资源,并监控运行状态,直到运行结束。4.应用程序完成后,appmaster向RM注销并关闭。1.FIFO hadoop1.x中调度策略。每个队列资源调度FIFO。3.fair公平调度。
2025-08-23 23:41:31
163
原创 菜鸡还没有找到工作(DAYA36)
一个开源的分布式协调服务框架,主要功能是为分布式应用提供一致性服务,比如HDFS HA中,始终保持只有一个Namenode为active状态。
2025-08-21 23:23:05
367
原创 菜鸡还没有找到工作(DAY34)
spark中对数据的操作都是基于RDD这种计算结构进行操作的。RDD是计算模型的核心。RDD是一个不可变,带有分区的数据集合,在集群中能够进行并行计算和处理,同时具备容错,位置感知,可伸缩性。
2025-08-19 16:44:38
871
原创 菜鸡还没有找到工作(DAY33)
1.Map收集读取数据形成的k-v对,读取数据到环形缓冲区2.环形缓冲区处理(按着分区策略和k进行排序处理),处理到阈值,就会溢写到磁盘,有多次spill的可能3.spill到磁盘的数据进行分区合并,同样的按着分区策略进行,分区内有序,最终形成一个大文件4.reducetask根据分区号,取各个maptask输出结果的分区数据5.reduce抓取数据后,会再次进行合并形成最终的reduce要处理的大文件(磁盘写入)
2025-08-14 20:58:24
498
原创 菜鸡还没有找到工作(DAY28)
1.概念:描述数据的数据2.元数据治理的目标:全域血缘可获取可视化,有效指导数据管理3.数据血缘:分类:活跃血缘/静默血缘使用:数仓中表、字段上下游查询,发送字段变更通知探查除数仓外其他场景使用。
2025-08-09 00:42:11
116
原创 菜鸡还没有找到工作(DAY27)
OLTP:联机事务处理系统,mysql,oracle特点:面向应用,事务驱动的,实时性高,数据检索量少,只存当前数据,业务流程OLAP:联机分析处理系统,clickhouse,doris,kylin特点:面向主题,分析,决策,不要求实时性,数据检索量大,存储历史和当前数据,业务主题。
2025-08-08 00:32:40
243
原创 菜鸡还没有找到工作(DAY25)
在数据仓库中,分库分表就是把原本集中在一个数据库的大表,按照某种规则(比如按时间、地区等)分散到多个数据库或表中。
2025-07-29 23:34:36
320
原创 菜鸡还没有找到工作(DAY24)
这个佬儿很厉害,太厉害了,基本把活儿都做完了。我只需要做一些dirtywork,但是也很累。今天本来说开数仓项目的,也没开成哈哈哈哈。今天一起来就发现组员给我发消息有个比赛。然后我就进组抱了个大腿。佬儿要求高,有强迫症。
2025-07-28 23:09:51
219
原创 菜鸡还没有找到工作(DAY22)
今天开始练算法,头大,脑子笨,真的想不出来。但是这几天玩的特别特别开心,爽的不得了我今天想着要是找不到工作还是考研吧,呵呵,但是我是真的不想考。
2025-07-27 00:13:46
185
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅