java中循环一万条数据需要多长时间_大数据企业面试题

易鑫车贷(大数据)

1.自我介绍,问了java项目,会不会springboot,在公司中经常做什么

2.问公司架构,每日数据量

3.Flume里面的channel用的是哪种,你公司用这种架构的优势在哪里,公司平台用什么搭的(画架构图),处理数据你们Spark资源用了多少,怎么分配

4.每日工作是什么,是否了解权限控制,最后数据存储到哪里,怎么展示,用的是HUE吗?怎么控制权限,数据怎么查看对错是否有问题

5.Java了解多少,在java项目中做的什么

6.手写二分查找

7.    JVM模型及调优(画图)垃圾回收算法(画图),Map了解多少(画图原理),String m="a"+"b"内存图 几个对象,StringBufferStringBuilder区别

8.公司架构(画图),Java负责哪里,大数据负责哪里

9.两个栈,一个栈里面的数据是无序的,怎么到另一个栈里面是有序的

10.什么叫拦截器,拦截器的原理,是否写过拦截器,权限会不会控制

11.自我评价,优势在哪里,期望薪资,离职薪资,离职原因

熙城紫光(大数据)

1.说一个自己最近做的项目,架构如何搭的,每日数据量是多少,Kafka分区多少,每秒数据多少,你们公司有多少数据每天

2.RDD是什么,他的弹性体现在哪里

3.Spark On Yarn上的工作原理(画图),YarnClusterYarnClient的区别

4.SparkStreaming中的窗口函数怎么理解的,KafkaSpark之间的整合是怎么整合的,偏移量保存到哪里,什么时候保存

5.数据报错了怎么监控,通过什么工具

魔秀科技(大数据)

1.自我介绍,手写wordcount,分析每个算子,主要问flatmapmap的区别,简单的原理不算,要从源码剖析

2.DAG和宽窄依赖,产生Stage的原因。Join会不会发生shuffle,如果不会请说明理由,如果会哪种会哪种会(画图讲解)

3.scala语言写一个二次排序不要用Spark算子。

4.Spark中的任务工作原理

宇信科技(大数据)

1.自我介绍,说一下你的项目,大数据的架构(数据流程)

2.一共多少人,怎么分组,你负责哪块

3.一共多少台服务器,内存多大,几个核

4.为什么一个网站流量分析需要用到这么多机器

5.Kafka连接spark-streaming有几种连接方式

6.Kafka怎么保证数据不会被重复消费

7.Hive的版本

8.Hive-sql在哪执行,使用的命令行方式还是啥工具

9.介绍一下Hbase,列存储和行存储的区别,有啥特点

10.整个大数据架构搭建用了多长时间

11.说一下mapreduceshuffle过程,缓冲区大小,阈值大小,reduce端怎么拿数据,分片的大小,个数,如何在不改变配置文件的前提下让分片大小变成64M

 - END -

长风破浪会有时,直挂云帆济沧海!

91d73dd21b4a303d88a6f05aee616625.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值