大数据面试题

1.1

1.什么是数据库?

2.什么是数据仓库?

3.什么是业务?

4.什么是面向主题?

5.数据一致性怎么理解?

6.数据来源?

7.日志数据和业务数据都是哪些?

8.风控和画像是啥?

9.项目技术选型?

10.框架版本选型?

11.服务器选物理机还是云主机?

12.如何确认集群规模?你们公司用几台虚拟机?

13.nginx服务器做什么?

14.为什么需要kafka?

15.埋点的数据怎么被采集的?

16.你们公司的日志文件一天有多少?

17.你们公司有多少人?有哪些部门?你们 是什么部门?什么组?组里边有多少人?

18.什么是埋点数据?什么是sdk?

1.2 Hadoop

1.hadoop的虚拟机环境准备

2.hadoop伪分布式安装,配置文件(了解)

3.为什么不能一直格式化NameNode,格式化NameNode,要注意什么?

4.完全分布式安装步骤(重点)

5.yum常用命令

6.常用的压缩方式有哪些?你公司用的那种,为什么?

7.我有10T的数据,读完需要多长时间,写需要多长时间?

8.Hadoop参数调优有哪些?

9.什么问题会导致运行很慢?

10.hadoop的数据倾斜怎么解决?


1.3 zookeeper

1.linux的常用命令

2.关于输入和输出的问题,黑洞

3.

 

1.4Flume

 

1.5Kafka

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值