2020年9月大数据相关面试

腾讯

一面:
1、实现一个函数f(x),输入x为正整数,
当x=1或者2时f(x)=1,当x>2时,f(x)=f(x-1)+f(x-2)
2、1T的文本中,每行就一个数字,让我怎么快速高效找出最大的那个数
3、数据库表a记录了很多用户在很多城市的访问记录,
字段a.user_id, a.city, a.time, a.other_info
使用一条SQL查出每个user_id
在每个city的最后一条访问记录
4、reduceByKey和CombineByKey和aggregateByKey,groupByKey
5、hive和impala的区别,有没有一些hive能实现,impala实现不了的
6、order by、sort by、
7、内部表、外部表
8、dataFrame、RDD区别

美团

SG闪购-数据仓库工程师
1、数仓架构分层
2、user_id, url, time,使用窗口函数实现,每个用户访问url页面的最长时间top10

易车

数据仓库架构师面试
1、Java的线程,scala的模式匹配
java的gc触发条件,为啥频繁gc
jvm优化参数

2、给你一个其他格式的文件,hive怎么去存储建表(mr的outputformat,inputformat)

3、hive或者spark sql怎么转换成底层的程序

4、spark提交的一些参数

5、现写一个sql,需求为求出连续用户登录的天数

6、你做过序列化的事情

7、spark内存管理模型

8、怎么避免一个一个节点上task分配过多
**

易车

运维架构师
1、spark源码、spark RDD、spark调优,spark有哪些shuffle
mapreduce RPC
》》kafka的分区分组
》》 dataFrame、dataSet、RDD
2、java基础
3、scala基础

火花思维

一面:
1、数仓
事实表、维度表区别
元数据的管理
2、大数据生态圈:
(a)flume
(b)kafka架构
(c)hbase的读写、rowkey设计、hbase隔离方案
二面:
1、hbase 查询的优化
2、rowkey的设计
3、spark 的kafka的堆积
4、急着表达自己的想法
5、维度表

京东数科

1、n个数中不能取相邻两个数,最大的和是多少
2、一个楼梯有n阶,每次可以跨1步,也可以跨2步,问有多少种走法
3、具体的场景对应的mapreduce,比如两个表进行join
4、JVM的复制算法

小米

大数据开发工程师-商业数据职位

岗位职责:
1、 负责整个公司的数据收集、清洗工作,进行相关数据产品的开发工作;
2、 建设、完善公司级用户画像,建设数据质量体系;
3、 利用技术手段赋能新零售、广告、金融、小爱同学、手机等业务。
任职要求:
1、 精通至少一门编程语言(Java/Scala/Python/C/C++),透彻理解常见的核心算法;
2、 熟练掌握概率统计、数据挖掘、机器学习相关理论知识;
3、 对Hadoop、Spark等工具拥有实践经验;
4、 大数据新技术探索,技术攻坚

1:String类可以被继承吗?为什么?

2:HashMap,HashTable,ConcurrentHashMap的异同?

3:Java单例模式 Scala语言如何实现? scala 实现一个静态方法

4:实现快速排序算法

5:设计4个线程,其中两个线程每次对j增加1,另外两个线程对j每次减少1。写出程序。

6.一个字符串(比如abcdeeea),提取最长相同字符。

第二部分 Hive

1:把每科最高分前三名统计出来–成绩表Score(student_name,student_no,subject_no,score)

2:找出单科成绩高于该科平均成绩的同学名单(无论该学生有多少科,只要有一科满足即可)–成绩表Score(student_name,student_no,subject_no,score)

3:一个表test(name,price),构建一个新表,将name相同的,price所有价格合并到一个字段里面

4:如何将题3中price合并后的prices字段再拆分为多条记录?

第三部分 Spark

1:用户访问日志文件有两列,分别为日期和用户ID:(date,user_id),使用Spark统计每天的访问的记录数和用户数。

2:在spark中,代码的执行位置:

dstream.foreachRDD { rdd =>

      val where1 = "执行位置1"

      rdd.foreachPartition { partition =>

        val where2= "执行位置2"

        partition.foreach { record =>

          val where2 = "执行位置3"

        }
    }
}

蚂蚁金服

分布式工程师

**职位名称:**
蚂蚁金服-分布式数据引擎开发工程师-北京/杭州
**职位描述:**
1、负责蚂蚁金服Ray融合计算引擎的设计、架构、开发。包括但不仅限于Ray Online,MPP,Deploy,API,Scheduler等功能。 
2、参与Ray的社区建设,把内部Ray计算引擎的改造与社区沟通回馈到Riselab社区,成为Contributor以及Committer。 
3、参与蚂蚁Cloudnative Eventing FaaS的建设,包括建设符合Knative标准的FaaS引擎及平台,搭建Eventing FaaS相关技术生态,开发实时数据生态中间件等; 
4、保障和承担蚂蚁金服在线计算相关业务的稳定性,例如实时营销,线下支付,安全攻防等等。参与所有蚂蚁金服相关的大型技术活动(如双11,双12,新春红包),承担大数据计算的大促值班,确保每一次活动的平稳顺利渡过。
**职位要求:**
1、熟悉至少一种大数据计算引擎,包括但不仅限于:Flink,Storm/Jstorm,Spark ,Samza,Kafka,Pulsar,Esper等;有K8s,Cloudnative,CEP等相关内容使用经验优先。
2、熟练掌握Java开发语言,具有优秀的架构设计能力,优秀的编程能力及优良的开发习惯。具备独立沟通需求,设计,架构,开发的能力;有Python,Go等经验者优先。
3、具备强烈的进取心、求知欲及团队合作精神,具有良好的沟通能力。

数仓岗位

职位描述
(1)新一代的面向大数据的实时数仓研发,探索新的技术方案以及核心功能实现;
(2)SQL优化查询,结合业务需求,对标准SQL进行扩展;
(3)高可靠的服务架构设计以及核心功能实现;
(4) 多种分布式计算引擎集成,结合SQL特点以及引擎功能的深度优化。
职位要求
(1) 有强烈的技术热情,工作责任感; 计算机软件或相关专业,本科或以上学历;
(2) 精通Java编程语言,具备大规模系统的研发和优化能力;
(3) 熟悉SQL语言,有SQL引擎开发优化经验优先;
(4) 熟悉分布式计算域相关知识,具备分布式计算引擎相关经验优先;
(5) 具备强烈的进取心,良好的沟通能力和团队合作精神。

1、spark的DataSource 的读写流程是怎么实现的,它是怎么自动推测和反射
2、java的双亲委派机制的作用,为什么要有这个机制,举个列子什么时候需要打破这种机制
3、jvm的模型是什么样子的,常用的GC算法有哪些,能举个算法详细说明其原理吗,jvm怎么加载class文件的,为什么复制算法在新生代而不在老年代
3、spark的shuffle优化点原理,
4、为什么会数据倾斜,怎么避免数据倾斜

国双科技

职位描述:
1、负责公司的大数据处理框架的研发设计工作;
2、负责公司产品研发过程中的数据库设计文档的撰写;
3、参与小组的产品设计讨论,共同讨论和设计产品。

技术要求
1、精通Hadoop以及Hadoop生态圈上的各种应用的几种,如Hbase、Hive,或者分布式数据库Impala等;
2、精通JAVA编程语言,精通面向对象和设计模式,熟悉Linux平台,可以编写代码编程使用Hadoop和基于Hadoop开发大数据处理系统;
3、拥有实际的Hadoop的项目经验;
4、熟悉软件开发流程和配置库的使用,拥有软件开发流程中的代码规范意识、配置管理规范意识、文档撰写规范意识和团队合作沟通交流意识

1、kafka为啥快
2、jvm的一些算法(垃圾回收算法相关)
3、ambari的架构

字节跳动

ETL工程师

快手

数据研发工程师(火山小视频)

滴滴

应聘职位: 大数据研发工程师(新项目)

岗位职责:
1. 负责用户画像系统的的架构设计与开发;

2. 负责大数据在线服务的架构设计与开发;

3. 负责实时特征处理系统的架构设计与开发;

4. 负责机器学习模型服务的架构设计与开发;

任职资格:
1、计算机或相关专业本科以上学历,3年以上工作经验;

2、具备扎实的Java语言编程基础,具备良好的编程习惯,较强独立解决问题的能力;掌握Spring等常用的开发框架;

3、有丰富的工作经验,参与过大型复杂分布式系统的设计、架构者优先;

3、有Hadoop、Spark、Flink、ES、Kafka等框架开发经验者优先;

4、熟悉多线程编程和JVM性能调优,有高并发、高吞吐量服务开发经验者优先;

6、做事严谨踏实,责任心强;具有良好的沟通能力和团队意识;

7、有机器学习模型开发经验者优先;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值