求职之路(1):4399公司数据研发工程师

图1
该岗位要求

一、笔试

试卷总共125分,(但实际上不是都130分了吗, 还是我哪个环节记错了ORZ)

1、选择题(20*1分):

大约6道算法题,2道Linux命令相关题,3道计算机网络(对TCP/IP四层协议)整体要熟,4道数据库编程(数据库性能优化、事务提交等细节),5道大数据题(对主流大数据产品Hadoop,HIVE的基本架构和实现细节要熟)

2、数据库题(10+15分):

第一道题是分析对比Redis、传统数据库(mysql)、Hbase、Hive的区别;第二道题是建表,SQL查询以及建立索引(mysql对时间类型数据的操作)。

3、编程题(3*20分):

不是牛客网那种要提交验证的,而是给出一个相对不那么具体的问题,也没有具体例子(输入输出),让你设计算法。

  • 第一题:

有n个岛屿,里面有一些宝藏,它们之间有n-1个隧道相连,冒险者每走一次隧道就要花一个小时,要取得所有宝藏花费的最少时间是多少?

本人做法:(提出具体例子,然后给出代码)

输入:

3                     # 代表有三个岛屿

[[1,2],[0],[0]]    # 代表岛屿0与岛屿1,岛屿2相连

输出:

3   # 从0到1,回到0再到2

贴代码:(递归实现深度优先搜索)

  • 第二题

具体问题忘了(这道题没来得及做),算是一种0-1背包问题;

  • 第三题

n个岛屿分布在无限长的一条直线海岸线上,基站都建在岛屿上,基站的覆盖长度为s,求至少多少基站就能覆盖全部岛屿?

输入:

3     # 岛屿个数 

3     # 基站覆盖长度s

[ [1,3],[5,9],[10,11]]  # 每个元素代表着一个岛屿的起始位置和末端位置

输出:

3 #  结点1,5,8分别为基站覆盖长度的起始位置,就能覆盖三个岛屿了

代码:只要能注意到上一个岛屿的基站可能对下一个岛屿有覆盖就好了,代码没有具体算法

4、个人经历题(5*5分):

(1)性格最大缺点,对未来职业可能会有所影响的 (2)以前做了其他同学做不出来的项目是什么,原因?

(3)同事和你负责同一个项目的两个模块,同事对自己模块不熟,你对同事的项目很熟,如果给你做会事半功倍,请问你会怎么做?

(4)大学课余时间花费最多在哪里,为什么要这么做,对自己现在有什么影响?

(5)你平时是怎样学习该岗位知识的?现在的学习进度是怎样的?

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
4399数据笔试题 今天晚上参加了厦门 今天晚上参加了厦门4399公司的⼤数据笔试,⾃⼰没有拍下题⽬,⼀下是根据⾃⼰在草稿纸上简要记录回忆下 公司的⼤数据笔试,⾃⼰没有拍下题⽬,⼀下是根据⾃⼰在草稿纸上简要记录回忆下 写出来的,具体的选项记不起来,⼤体题⽬在下⾯,欢迎⼤家给出⾃⼰的见解答案 写出来的,具体的选项记不起来,⼤体题⽬在下⾯,欢迎⼤家给出⾃⼰的见解答案 ⼀、选择题 ⼀、选择题 1.四个⼟豪在⼀次聚会中⽐拼财产的逻辑推理题。 A:四个⼈中,B最富。 B:四个⼈中,C最富。 C:我不是最富有的。 D:C⽐我富,A⽐C富。 已知,其中只有⼀个⼈在说假话。 请问:四个⼈中谁最富?从最富到最不富的顺序应该怎么排? 答案:A、B两⼈的答案不同,所以⼀定有⼀个⼈在说谎。也就是说,C和D说的都是实话。所以,C不是最富的,也就是说B说的是假 话。这样可以得到顺序为:B、A、C、D。 2.与HDFS类似的框架有哪些? 3.下⾯哪⼀个程序与NameNode在⼀个节点上启动? A. SecondaryNameNode B. DataNode C. TaskTracker D. JobTracker 答案:A 4.哪个是RDD的窄依赖? 5.HBase的RowKey的设计原则是什么? 6.HBase的存储底层是什么? 答案:HBase中的所有数据⽂件都存储在Hadoop HDFS⽂件系统上,主要包括上述提出的两种⽂件类型: HFile,HBase中KeyValue数据的存储格式,HFile是Hadoop的⼆进制格式⽂件,实际上StoreFile就是对HFile做了轻量级包装, 即StoreFile底层就是HFile HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File 7.Scala语⾔的闭包描述哪⼀项不是正确的? 8.Kafka⾼吞吐的原因? 答案: 顺序读写磁盘,充分利⽤了操作系统的预读机制。 linux中使⽤sendfile命令,减少⼀次数据拷贝,如下: 把数据从硬盘读取到内核中的页缓存。 把数据从内核中读取到⽤户空间。(sendfile命令将跳过此步骤) 把⽤户空间中的数据写到socket缓冲区中。 操作系统将数据从socket缓冲区中复制到⽹卡缓冲区,以便将数据经⽹络发出 ⽣产者客户端缓存消息批量发送,消费者批量从broker获取消息,减少⽹络io次数,充分利⽤磁盘顺序读写的性能。 通常情况下kafka的瓶颈不是cpu或者磁盘,⽽是⽹络带宽,所以⽣产者可以对数据进⾏压缩。 9.ZooKeeper的⾓⾊是什么? 答案: Leader ⾓⾊ Leader 服务器是整个zookeeper 集群的核⼼,主要的⼯作任务有两项: 事物请求的唯⼀调度和处理者,保证集群事物处理的顺序性。 集群内部各服务器的调度者。 Follower ⾓⾊ Follower ⾓⾊的主要职责是: 处理客户端⾮事物请求、转发事物请求给leader服务器。 参与事物请求Proposal的投票(Leader发起的提案,要求 Follower投票,需要半数以上follower节点通过,leader才会 commit数据)。 参与Leader选举的投票。 Observer ⾓⾊ Observer 是 zookeeper3.3 开始引⼊的⼀个全新的服务器⾓⾊,从字⾯来理解,该⾓⾊充当了观察者的⾓⾊。观察 zookeeper 集群中的最新状态变化并将这些状态变化同步到 observer 服务器上。Observer 的⼯作原理与 follower ⾓⾊基本⼀致,⽽它 和 follower ⾓⾊唯⼀的不同在于 observer 不参与任何形式的投票,包括事务请求Proposal的投票和leader选举的投票。简单来 说,observer服务器只提供⾮事物请求服务,通常在于不影响集群事务处理能⼒的前提下提升集群⾮事物处理的能⼒。 10.Spark Stage的数量有什么决定? 答案:Partition ⼆、填空题 ⼆、填空题 1.Spark的三种部署模式? 2.RDD有哪些缓存机制? 3.RDD类型有⼏种?每⼀种有哪些操作? 4.map和flatMap的区别是什么? 5.RDD的依赖⽅式? 6.有存储在Hive上的⼀张pay_log表 ser_name pay_money pay_date 1)使⽤SQL语句查询消费总额、消费总次数、消费最⼤的⾦额、消费最⼤的⾦额 2)使⽤SQL语句每⼀天当天消费的总⾦额 3)使⽤SQL语句对消费⾦额进⾏排名(⽤rank()) 4)使⽤SQL语句查询充值⾦额集合(⽤collect_set()) 7.HDFS block的默认值是多少?机架感知配置下分别存放在什么位置? 8

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值