大数据相关面试题

1.对大数据的了解

大数据具有 数据量巨大 种类和来源多样 数据增涨速度越来越快 数据的价值密度越来越低 数据的质量和真实性参差不齐 数据的连通性 动态性 可视化 合法性

大数据的技术体系
业务应用层
  • 业务模型 数据可视化 业务应用
任务调度层
  • Ozzie azkaban
数据计算层
  • MapReduce Spark Storm Pig Flink
资源管理层
  • Yarn
资源存储层
  • HDFS
    • Ozone HBase
数据传输层
  • Sqoop Flume Kafka
数据来源层
  • 数据库(结构化数据) 文件日志(半结构化数据) 视频 PPT(非结构化数据)

大数据相关工作

  • 平台组
    • 平台搭建
    • 集群性能监控
    • 集群性能优化
  • 数仓组
    • 数据清洗
    • 数据分析 数仓建模
  • 挖掘组
    • 算法
    • 推荐
    • 用户画像
  • 报表组
    • JavaEE

2.scala和java的区别:(异同都要说)

3.java1.7跟1.8的区别:我说了语法糖和拉姆达表达式

4.为什么选择scala开发大数据项目而不用java lamda

5.介绍下jvm

6.说下java GC:分代回收

7.工作中常用的收集器:(G1,大数据用parnese,HBase用GSM)

8.工作中jvm如果调优

9.数据库和数据仓库的区别

10.讲下redis的业务场景

11.对全文检索了解如何:(部分业务场景下使用ES,我知道他底层是luuceen,利用倒排索引实现,没细研究过)

12.对java常见数据结果了解吗?重点讲下集合

13.list和set的区别

14.hashmap和hashtable的区别

15.怎么解决hashmap的线程安全问题?(1.业务逻辑中做加锁操作,①sychnize②lock 2.使用concurrent hashmap)

16.你平时是怎么解决高并发环境下的线程安全问题的(lock,原子变量)

17.有做过高并发开发吗?(做过一些基础的concurrent包操作,没有基于akki和netty的开发)

18.说下RabbitMQ的工作模式吧?

19.请描述下消息队列的作用?

20.data node和name node的连接?(可以具体点吗?)=>说下读写过程中节点之间的如何沟通的?

21.说下yarn吧?

22.平时用hive多吗?(根据业务需求,离线用hive比较多,不过更多的使用spark core操作)

23.spark core的操作?

24.action操作有几个?(没有数过,开发的时候collect和save还是reduce还有take之类的,其他想不起来了)

25.说下spark中的全局变量,并说下他们的用法.

26.举个列子说下广播变量的使用场景(表之间做join操作时,在spark 中可以将一个表的数据广播到集群)

27.spark开发项目时主要使用哪些模块(spark core, spark streaming, spark sql ,MLlib)

28.spark sql和 hql的区别

29.说下项目结构吧?(flume=>kafka=>spark treaming=>hbase=>mysql=>echarts)

30.说下hbase表格设计吧,谈谈rowkey设计原则,说下列族的设计逻辑

31.列举一个项目说下,数仓如何设计的?

32.看你简历中有智慧交通介绍,能活下具体职能和工作内容吗?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值