2020年9月大数据相关面试

最新推荐文章于 2024-06-15 10:30:00 发布

wg_hadoop

最新推荐文章于 2024-06-15 10:30:00 发布

阅读量831

点赞数

分类专栏：面试文章标签：大数据

本文链接：https://blog.csdn.net/u011409486/article/details/109772622

版权

面试专栏收录该内容

1 篇文章 0 订阅

订阅专栏

腾讯

一面：
1、实现一个函数f(x)，输入x为正整数，
当x=1或者2时f(x)=1，当x>2时，f(x)=f(x-1)+f(x-2)
2、1T的文本中，每行就一个数字，让我怎么快速高效找出最大的那个数
3、数据库表a记录了很多用户在很多城市的访问记录，
字段a.user_id, a.city, a.time, a.other_info
使用一条SQL查出每个user_id
在每个city的最后一条访问记录
4、reduceByKey和CombineByKey和aggregateByKey，groupByKey
5、hive和impala的区别，有没有一些hive能实现，impala实现不了的
6、order by、sort by、
7、内部表、外部表
8、dataFrame、RDD区别

美团

SG闪购-数据仓库工程师
1、数仓架构分层
2、user_id, url, time，使用窗口函数实现，每个用户访问url页面的最长时间top10

易车

数据仓库架构师面试
1、Java的线程，scala的模式匹配
java的gc触发条件，为啥频繁gc
jvm优化参数

2、给你一个其他格式的文件，hive怎么去存储建表（mr的outputformat，inputformat）

3、hive或者spark sql怎么转换成底层的程序

4、spark提交的一些参数

5、现写一个sql，需求为求出连续用户登录的天数

6、你做过序列化的事情

7、spark内存管理模型

8、怎么避免一个一个节点上task分配过多
**

易车

运维架构师
1、spark源码、spark RDD、spark调优，spark有哪些shuffle
mapreduce RPC
》》kafka的分区分组
》》 dataFrame、dataSet、RDD
2、java基础
3、scala基础

火花思维

一面：
1、数仓
事实表、维度表区别
元数据的管理
2、大数据生态圈：
（a）flume
（b）kafka架构
（c）hbase的读写、rowkey设计、hbase隔离方案
二面：
1、hbase 查询的优化
2、rowkey的设计
3、spark 的kafka的堆积
4、急着表达自己的想法
5、维度表

京东数科

1、n个数中不能取相邻两个数，最大的和是多少
2、一个楼梯有n阶，每次可以跨1步，也可以跨2步，问有多少种走法
3、具体的场景对应的mapreduce，比如两个表进行join
4、JVM的复制算法

小米

大数据开发工程师-商业数据职位

岗位职责：
1、 负责整个公司的数据收集、清洗工作，进行相关数据产品的开发工作；
2、 建设、完善公司级用户画像,建设数据质量体系；
3、 利用技术手段赋能新零售、广告、金融、小爱同学、手机等业务。
任职要求：
1、 精通至少一门编程语言(Java/Scala/Python/C/C++)，透彻理解常见的核心算法；
2、 熟练掌握概率统计、数据挖掘、机器学习相关理论知识；
3、 对Hadoop、Spark等工具拥有实践经验；
4、 大数据新技术探索,技术攻坚

1：String类可以被继承吗？为什么？

2：HashMap，HashTable，ConcurrentHashMap的异同？

3：Java单例模式 Scala语言如何实现？ scala 实现一个静态方法

4：实现快速排序算法

5：设计4个线程，其中两个线程每次对j增加1，另外两个线程对j每次减少1。写出程序。

6.一个字符串（比如abcdeeea），提取最长相同字符。

第二部分 Hive

1：把每科最高分前三名统计出来–成绩表Score（student_name,student_no,subject_no,score）

2：找出单科成绩高于该科平均成绩的同学名单（无论该学生有多少科，只要有一科满足即可）–成绩表Score（student_name,student_no,subject_no,score）

3：一个表test(name,price),构建一个新表,将name相同的,price所有价格合并到一个字段里面

4：如何将题3中price合并后的prices字段再拆分为多条记录？

第三部分 Spark

1：用户访问日志文件有两列，分别为日期和用户ID：（date，user_id）,使用Spark统计每天的访问的记录数和用户数。

2：在spark中,代码的执行位置:

dstream.foreachRDD { rdd =>

      val where1 = "执行位置1"

      rdd.foreachPartition { partition =>

        val where2= "执行位置2"

        partition.foreach { record =>

          val where2 = "执行位置3"

        }
    }
}

蚂蚁金服

分布式工程师

**职位名称：**
蚂蚁金服-分布式数据引擎开发工程师-北京/杭州
**职位描述：**
1、负责蚂蚁金服Ray融合计算引擎的设计、架构、开发。包括但不仅限于Ray Online，MPP，Deploy，API，Scheduler等功能。 
2、参与Ray的社区建设，把内部Ray计算引擎的改造与社区沟通回馈到Riselab社区，成为Contributor以及Committer。 
3、参与蚂蚁Cloudnative Eventing FaaS的建设，包括建设符合Knative标准的FaaS引擎及平台，搭建Eventing FaaS相关技术生态，开发实时数据生态中间件等； 
4、保障和承担蚂蚁金服在线计算相关业务的稳定性，例如实时营销，线下支付，安全攻防等等。参与所有蚂蚁金服相关的大型技术活动（如双11，双12，新春红包），承担大数据计算的大促值班，确保每一次活动的平稳顺利渡过。
**职位要求：**
1、熟悉至少一种大数据计算引擎，包括但不仅限于：Flink，Storm/Jstorm，Spark ，Samza，Kafka，Pulsar，Esper等；有K8s，Cloudnative，CEP等相关内容使用经验优先。
2、熟练掌握Java开发语言，具有优秀的架构设计能力，优秀的编程能力及优良的开发习惯。具备独立沟通需求，设计，架构，开发的能力；有Python，Go等经验者优先。
3、具备强烈的进取心、求知欲及团队合作精神，具有良好的沟通能力。

数仓岗位

职位描述
（1）新一代的面向大数据的实时数仓研发，探索新的技术方案以及核心功能实现；
（2）SQL优化查询，结合业务需求，对标准SQL进行扩展；
（3）高可靠的服务架构设计以及核心功能实现；
（4） 多种分布式计算引擎集成，结合SQL特点以及引擎功能的深度优化。
职位要求
（1） 有强烈的技术热情，工作责任感； 计算机软件或相关专业，本科或以上学历；
（2） 精通Java编程语言，具备大规模系统的研发和优化能力；
（3） 熟悉SQL语言，有SQL引擎开发优化经验优先；
（4） 熟悉分布式计算域相关知识，具备分布式计算引擎相关经验优先；
（5） 具备强烈的进取心，良好的沟通能力和团队合作精神。

1、spark的DataSource 的读写流程是怎么实现的，它是怎么自动推测和反射
2、java的双亲委派机制的作用，为什么要有这个机制，举个列子什么时候需要打破这种机制
3、jvm的模型是什么样子的，常用的GC算法有哪些，能举个算法详细说明其原理吗，jvm怎么加载class文件的，为什么复制算法在新生代而不在老年代
3、spark的shuffle优化点原理，
4、为什么会数据倾斜，怎么避免数据倾斜

国双科技

职位描述：
1、负责公司的大数据处理框架的研发设计工作；
2、负责公司产品研发过程中的数据库设计文档的撰写；
3、参与小组的产品设计讨论，共同讨论和设计产品。

技术要求
1、精通Hadoop以及Hadoop生态圈上的各种应用的几种，如Hbase、Hive，或者分布式数据库Impala等；
2、精通JAVA编程语言，精通面向对象和设计模式，熟悉Linux平台，可以编写代码编程使用Hadoop和基于Hadoop开发大数据处理系统；
3、拥有实际的Hadoop的项目经验；
4、熟悉软件开发流程和配置库的使用，拥有软件开发流程中的代码规范意识、配置管理规范意识、文档撰写规范意识和团队合作沟通交流意识

1、kafka为啥快
2、jvm的一些算法（垃圾回收算法相关）
3、ambari的架构

字节跳动

ETL工程师

快手

数据研发工程师（火山小视频）

滴滴

应聘职位: 大数据研发工程师（新项目）

岗位职责：
1. 负责用户画像系统的的架构设计与开发；

2. 负责大数据在线服务的架构设计与开发；

3. 负责实时特征处理系统的架构设计与开发；

4. 负责机器学习模型服务的架构设计与开发；

任职资格：
1、计算机或相关专业本科以上学历，3年以上工作经验;

2、具备扎实的Java语言编程基础，具备良好的编程习惯，较强独立解决问题的能力；掌握Spring等常用的开发框架；

3、有丰富的工作经验，参与过大型复杂分布式系统的设计、架构者优先；

3、有Hadoop、Spark、Flink、ES、Kafka等框架开发经验者优先；

4、熟悉多线程编程和JVM性能调优，有高并发、高吞吐量服务开发经验者优先；

6、做事严谨踏实，责任心强；具有良好的沟通能力和团队意识；

7、有机器学习模型开发经验者优先；