- 博客(15)
- 收藏
- 关注
原创 Linux基础学习笔记
有很多参数可选:-p、-d、-c、-n、-b、-i、-u;top支持交互式选型(多,各种按键);,-f表示持续跟踪,-num表示查看尾部多少行默认10:用于查看文件尾部的内容,跟踪文件的最新更改。:-c统计bytes数量,-m统计字符数量,-l统计行数,-w统计单词数量,什么都不加的时候就是。,查看Linux系统中的进程信息(-e显示全部进程,-f展示全部信息,一般-ef);,+、-表示大于小于,n表示大小数字,kMG分别表示kb、MB、GB。,-x显示更多信息,num1刷新间隔,num2刷新次数;
2025-05-10 23:28:43
656
原创 大数据相关面试题每日五问(九)
在多租户场景中,若任务具有 SLA 要求,需保障资源分配,优先选择 CapacityScheduler;Hive 中的分区(Partition)是将表按某列的值水平划分为多个目录,减少扫描范围,提升查询性能,适用于大范围过滤字段(如按天、地区查询);缓慢变化维(SCD)处理维表字段随时间变化的问题,其中类型1策略直接覆盖旧值,不保留历史,适用于不关心历史变更的维度(如手机号);而类型2策略保留历史版本,新增一条记录标记生效时间和失效时间(或添加当前标志字段),适用于分析历史状态变化(如客户等级、地区)。
2025-04-18 14:17:21
545
1
原创 大数据相关面试题每日五问(八)
Hive 构建在 Hadoop 上,面向大数据的批处理场景,数据通常存储在 HDFS 上,查询通过转换为 MapReduce、Tez 或 Spark 等分布式计算任务执行,适合海量离线分析,查询延迟较高;当某个 DataNode 宕机后,NameNode 会通过心跳机制发现节点失联,并将其标记为不可用,同时指派其他正常的 DataNode 根据现有副本重新复制缺失数据,确保副本数量不低于设定值,从而实现故障自动恢复和数据高可用。分区键应根据业务维度选择,如按日期或地区分区,便于按需读取数据块,减少 IO;
2025-04-17 18:52:02
890
1
原创 大数据相关面试题每日五问(七)
由于 NULL 表示不确定,它在查询和比较中具有特殊行为:任何值与 NULL 进行运算或比较,结果仍为 NULL(即“未知”),而不是 true 或 false。索引在提升 SELECT 性能方面作用显著,但也会占用空间并影响 INSERT/UPDATE 的效率,因此需合理设计,避免过多无效索引或重复索引。,通过共享存储与日志同步,实现 NameNode 宕机后的秒级切换,保障 HDFS 的高可用。)是对未分词字段进行的精确匹配,常用于结构化字段的查询,如用户 ID、状态值、时间范围等。
2025-04-13 15:28:16
958
1
原创 C语言 计算火车运行时间
#include<stdio.h>int main(){ int a,b,c1,c2,A,B,C; scanf("%d %d",&a,&b); A=(a/100)*60+(a-(a/100)*100); B=(b/100)*60+(b-(b/100)*100); C=B-A; c1=C/60; c2=C-(C/60)*60; printf("%02d:%02d",c1,c2); re
2022-11-08 21:43:37
2062
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人