大数据面试知识点

最新推荐文章于 2023-05-26 17:01:06 发布

ODzongzi

最新推荐文章于 2023-05-26 17:01:06 发布

阅读量164

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/odzongzi/article/details/125570569

版权

大数据：
1.离线数仓【ERP、电商、业务清楚、】
1.业务熟悉
2.技术架构
3.数仓建设
4.指标【5个】
做过哪些指标
如何做的

2.spark工具： 
	1.技术架构
	2.优点： 

3.实时指标yarn ： 
	1.背景 
	2.好处
	3.具体实现

3.回答技术点【简历上的】
1.linux ：
1.pid port
2.tail -f -F
3.cat
4.环境变量：
个人全局
5.常用的linux命令有哪些：
ps -ef
netstat
free
top
tail
查看文件大小：ll -h du -sh
查看文件按照日期进行排序
2.shell：
1.数仓 shell 怎么写的：
1. spark-sql -f xx.sql
-e
sed
2.shell 脚本参数传递 $n $0 $1 $@ $# $?
sed awk
3.如何debug 【】

3.mysql：  数据可视化
	1.sql function unionall join  索引
									【1.使用方式 =》 给维度字段添加索引  sql where
									  2。效果是啥 查询块】

4.hadoop： 
	1.hdfs  画图 一边说
		1.读写流程
		2.架构设计 
		3.ha 
		4.文件块大小 【版本 】
			cdh 
			apache 
		5.小文件如何解决：
			1.合并【java代码 合并 hdfs api 】
			2.删除
	2.mapreduce ： 
		1.架构 
			input =》 mapper =》shuffle =》reduce =》 output 
		2.调优 ： 
			压缩【掌握】
	
		3.task 个数 ： 
				map task个数  =》 切片 =》 切片大小  默认情况  
				reducetask个数 =》 用户自己
	3.yarn ： 
		1.架构设计 【*】
		2.yarn ha 
		3.调度器
	
你们公司集群规模？ 10
	一台节点 ： 128G 40T  64core 

	hadoop集群资源划分：
		container

5.hive ： 
	1.知识点 
		数据：
			1.元
			2.hdfs 
	
	2.架构设计【了解】
	3.引擎： 
		mr  【默认】
		spark 
		tez
	
		hive on spark  vs  spark on hive 
	
	4.sql ： 
		1.数据清洗函数 
		2.聚合函数 
		3.开窗函数 ：
			1.排序 
		4.grouping sets 【维度组合分析】
		5.udf 函数 ： 
			1. 脏数据处理 =》 
			2.json 【不规范json】
			3.数据倾斜udf ：
				1.column +前缀 
				2.column - 前缀
		6.四大by 
		7.内部表 vs 外部表 
		8.分桶表【】
	5.调优： shuffle 
		1.join 
			1.map join 
			2.shuffle join =>数据倾斜
		2.group by : =>数据倾斜

6.flume ： 
	1.架构设计
	2.source ： 
		file ： 
			三种区别
	3.channel ： 
		1.file 
		2.mem 
	4.sink :
		hdfs [小文件问题]
	5.监控 ： 
		1.数据
		-D http.port   => web  => json [channel 里面的数 ]：
					1.souce 
					2.channel 
					3.sink 
			=》 ck mysql =》 数据可视化
		2.程序： 
			1.挂了 =》拉起
				pid =》 报警 =》 拉起

7.kafka ： 
	1.架构设计
	2.ack 
	3.交付语义： 
		1.producer 【版本】
		2.consumer  【消费的框架】
			1.offset 提交 + 消费数据 =》 spark 

	4.数据存储机制： 
		1.segment 
		2.查找某个offset 
	5.kafka为什么快? 
		1.零拷贝  
		2.按顺序写磁盘 
	6.kafka 乱序问题【伪命题】=》 kafka 

8.hbase ： 
	0.架构设计【逻辑层面 图】
	1.读写流程 
	2.rk设计： 
		1.优点
		2.缺点
	3.phoenix 
	4.调优：memestore flush级别： 【】
		1.总结

9.spark : 
	1.sparkcore: [10% 输出 text ]：
		1.wc 手写【spark算子】 【scala function】
		2.join corgroup  
		3.reducebykey groupbykey 
		4.coalse  repartition 
		5.脚本： 
			spark-shell  
				spark-submit $@
		6.rdd
			1.5大特性 
			2.弹性
			3.分布式
	2.sparksql: 
		1.sql 
		2.api ： 
			1.df ds 【rdd区别】【相互转换】
			2.schema 、catalog =》 工具
		3.调优
			1.小文件
			2.数据倾斜 ： 
				join 
				group by  
				[并行度]： 
					sql =》 xxx.sql => set  k=v   sql => colase[函数] hints 
					代码 =》 算子
	3.ss： 
		1.kafka ： 
			1.offset 如何管理 ： 
				1.三种
			2.updatestateByKey【实时 】： 
				1.有状态
				2.无状态
			3.调优： 
				1.kafka限速
				2.背压
			4.闭包： 
				sink mysql 
	
	总体： 
		1.spark内存管理 
		2.spark任务提交流程： 

10.javase: 
	1.string 
	2.集合 ：
		collection： 
			set 
			map 
		arraylist底层实现 
		hashtable 与hashmap 区别 
	3.反射【谈谈】
	4.jvm： 
		1.运行时数据区 
		2.gc ：
			1.算法 
			2.这么用 
		3.调优： 
			oom ？
				调优参数

ODzongzi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
大数据面试知识点

大数据：1.离线数仓【ERP、电商、业务清楚、】1.业务熟悉2.技术架构3.数仓建设4.指标【5个】做过哪些指标如何做的2.spark工具： 1.技术架构 2.优点： 3.实时指标yarn ： 1.背景 2.好处 3.具体实现3.回答技术点【简历上的】1.linux ：1.pid port2.tail -f -F3.cat4.环境变量：个人全局5.常用的linux命令有哪些：ps -efnetstatfreetoptail查看文件大小：l
复制链接

扫一扫