1.1
1.什么是数据库?
2.什么是数据仓库?
3.什么是业务?
4.什么是面向主题?
5.数据一致性怎么理解?
6.数据来源?
7.日志数据和业务数据都是哪些?
8.风控和画像是啥?
9.项目技术选型?
10.框架版本选型?
11.服务器选物理机还是云主机?
12.如何确认集群规模?你们公司用几台虚拟机?
13.nginx服务器做什么?
14.为什么需要kafka?
15.埋点的数据怎么被采集的?
16.你们公司的日志文件一天有多少?
17.你们公司有多少人?有哪些部门?你们 是什么部门?什么组?组里边有多少人?
18.什么是埋点数据?什么是sdk?
1.2 Hadoop
1.hadoop的虚拟机环境准备
2.hadoop伪分布式安装,配置文件(了解)
3.为什么不能一直格式化NameNode,格式化NameNode,要注意什么?
4.完全分布式安装步骤(重点)
5.yum常用命令
6.常用的压缩方式有哪些?你公司用的那种,为什么?
7.我有10T的数据,读完需要多长时间,写需要多长时间?
8.Hadoop参数调优有哪些?
9.什么问题会导致运行很慢?
10.hadoop的数据倾斜怎么解决?
1.3 zookeeper
1.linux的常用命令
2.关于输入和输出的问题,黑洞
3.
1.4Flume
1.5Kafka