大数据:
1.离线数仓【ERP、电商、业务清楚、】
1.业务熟悉
2.技术架构
3.数仓建设
4.指标【5个】
做过哪些指标
如何做的
2.spark工具:
1.技术架构
2.优点:
3.实时指标yarn :
1.背景
2.好处
3.具体实现
3.回答技术点 【简历上的】
1.linux :
1.pid port
2.tail -f -F
3.cat
4.环境变量:
个人 全局
5.常用的linux命令有哪些:
ps -ef
netstat
free
top
tail
查看文件大小:ll -h du -sh
查看文件按照日期进行排序
2.shell:
1.数仓 shell 怎么写的 :
1. spark-sql -f xx.sql
-e
sed
2.shell 脚本参数传递 $n $0 $1 $@ $# $?
sed awk
3.如何debug 【】
3.mysql: 数据可视化
1.sql function unionall join 索引
【1.使用方式 =》 给维度字段添加索引 sql where
2。效果是啥 查询块】
4.hadoop:
1.hdfs 画图 一边说
1.读写流程
2.架构设计
3.ha
4.文件块大小 【版本 】
cdh
apache
5.小文件如何解决:
1.合并【java代码 合并 hdfs api 】
2.删除
2.mapreduce :
1.架构
input =》 mapper =》shuffle =》reduce =》 output
2.调优 :
压缩【掌握】
3.task 个数 :
map task个数 =》 切片 =》 切片大小 默认情况
reducetask个数 =》 用户自己
3.yarn :
1.架构设计 【*】
2.yarn ha
3.调度器
你们公司集群规模? 10
一台节点 : 128G 40T 64core
hadoop集群资源划分:
container
5.hive :
1.知识点
数据:
1.元
2.hdfs
2.架构设计【了解】
3.引擎:
mr 【默认】
spark
tez
hive on spark vs spark on hive
4.sql :
1.数据清洗函数
2.聚合函数
3.开窗函数 :
1.排序
4.grouping sets 【维度组合分析】
5.udf 函数 :
1. 脏数据处理 =》
2.json 【不规范json】
3.数据倾斜udf :
1.column +前缀
2.column - 前缀
6.四大by
7.内部表 vs 外部表
8.分桶表【】
5.调优: shuffle
1.join
1.map join
2.shuffle join =>数据倾斜
2.group by : =>数据倾斜
6.flume :
1.架构设计
2.source :
file :
三种区别
3.channel :
1.file
2.mem
4.sink :
hdfs [小文件问题]
5.监控 :
1.数据
-D http.port => web => json [channel 里面的数 ]:
1.souce
2.channel
3.sink
=》 ck mysql =》 数据可视化
2.程序:
1.挂了 =》拉起
pid =》 报警 =》 拉起
7.kafka :
1.架构设计
2.ack
3.交付语义:
1.producer 【版本】
2.consumer 【消费的框架】
1.offset 提交 + 消费数据 =》 spark
4.数据存储机制:
1.segment
2.查找某个offset
5.kafka为什么快?
1.零拷贝
2.按顺序写磁盘
6.kafka 乱序问题【伪命题】=》 kafka
8.hbase :
0.架构设计【逻辑层面 图】
1.读写流程
2.rk设计:
1.优点
2.缺点
3.phoenix
4.调优:memestore flush级别: 【】
1.总结
9.spark :
1.sparkcore: [10% 输出 text ]:
1.wc 手写【spark算子】 【scala function】
2.join corgroup
3.reducebykey groupbykey
4.coalse repartition
5.脚本:
spark-shell
spark-submit $@
6.rdd
1.5大特性
2.弹性
3.分布式
2.sparksql:
1.sql
2.api :
1.df ds 【rdd区别】【相互转换】
2.schema 、catalog =》 工具
3.调优
1.小文件
2.数据倾斜 :
join
group by
[并行度]:
sql =》 xxx.sql => set k=v sql => colase[函数] hints
代码 =》 算子
3.ss:
1.kafka :
1.offset 如何管理 :
1.三种
2.updatestateByKey【实时 】:
1.有状态
2.无状态
3.调优:
1.kafka限速
2.背压
4.闭包:
sink mysql
总体:
1.spark内存管理
2.spark任务提交流程:
10.javase:
1.string
2.集合 :
collection:
set
map
arraylist底层实现
hashtable 与hashmap 区别
3.反射【谈谈】
4.jvm:
1.运行时数据区
2.gc :
1.算法
2.这么用
3.调优:
oom ?
调优参数