1.对大数据的了解
大数据具有 数据量巨大 种类和来源多样 数据增涨速度越来越快 数据的价值密度越来越低 数据的质量和真实性参差不齐 数据的连通性 动态性 可视化 合法性
大数据的技术体系
-
业务应用层
-
任务调度层
-
数据计算层
- MapReduce Spark Storm Pig Flink
-
资源管理层
-
资源存储层
-
数据传输层
-
数据来源层
- 数据库(结构化数据) 文件日志(半结构化数据) 视频 PPT(非结构化数据)
大数据相关工作
2.scala和java的区别:(异同都要说)
3.java1.7跟1.8的区别:我说了语法糖和拉姆达表达式
4.为什么选择scala开发大数据项目而不用java lamda
5.介绍下jvm
6.说下java GC:分代回收
7.工作中常用的收集器:(G1,大数据用parnese,HBase用GSM)
8.工作中jvm如果调优
9.数据库和数据仓库的区别
10.讲下redis的业务场景
11.对全文检索了解如何:(部分业务场景下使用ES,我知道他底层是luuceen,利用倒排索引实现,没细研究过)
12.对java常见数据结果了解吗?重点讲下集合
13.list和set的区别
14.hashmap和hashtable的区别
15.怎么解决hashmap的线程安全问题?(1.业务逻辑中做加锁操作,①sychnize②lock 2.使用concurrent hashmap)
16.你平时是怎么解决高并发环境下的线程安全问题的(lock,原子变量)
17.有做过高并发开发吗?(做过一些基础的concurrent包操作,没有基于akki和netty的开发)
18.说下RabbitMQ的工作模式吧?
19.请描述下消息队列的作用?
20.data node和name node的连接?(可以具体点吗?)=>说下读写过程中节点之间的如何沟通的?
21.说下yarn吧?
22.平时用hive多吗?(根据业务需求,离线用hive比较多,不过更多的使用spark core操作)
23.spark core的操作?
24.action操作有几个?(没有数过,开发的时候collect和save还是reduce还有take之类的,其他想不起来了)
25.说下spark中的全局变量,并说下他们的用法.
26.举个列子说下广播变量的使用场景(表之间做join操作时,在spark 中可以将一个表的数据广播到集群)
27.spark开发项目时主要使用哪些模块(spark core, spark streaming, spark sql ,MLlib)
28.spark sql和 hql的区别
29.说下项目结构吧?(flume=>kafka=>spark treaming=>hbase=>mysql=>echarts)
30.说下hbase表格设计吧,谈谈rowkey设计原则,说下列族的设计逻辑
31.列举一个项目说下,数仓如何设计的?
32.看你简历中有智慧交通介绍,能活下具体职能和工作内容吗?