大数据工程师(ETL)面试系列(1)

11 篇文章 13 订阅
5 篇文章 1 订阅

#1. 你觉得Spark和Hadoop的区别是什么,请简要说一说?
:Hadoop适合离线分析,是批处理;Spark适合实时分析,是近实时流,微批处理。

#2. 你觉得Python和Java在使用起来,有什么区别?
:其实自己在平时使用的时候,并没有过度割裂开这两种,因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号,最后可以实现我的需求就可以了。
:如今,再来审视这个问题,会发现其实在使用过程中,Python,Java确实有一些需要你拐个弯注意下的,比如【Python】list的remove函数和【Java】list的remove方法,同名异能。以及Python一些轮子如何用Java去实现也是要注意的。

#3. 给你两张表,表A和表B,其中表A有3条数据,表B有5条数据,问:表A left join 表B后有几条?
:小于等于A表条数,也就是小于等于3条
:现在看来,当时陷入了工作中带来的一个误区,就是面试官可没说join的字段是主键,它可以不唯一哈,不唯一就会导致大于3条,因为有重复,而B表记录不足的地方均为NULL,所以可能小于吗?不信客官你看:
例1
A表的记录数在B表中全都有且B表id唯一
A表数据

B表数据

A left join B

例2
A表的记录在C表中有缺失但C表记录唯一

A表数据

C表数据

A left join C

例3
A表的记录在D表中全都有但D表id不唯一

A表数据

D表数据

A left join D

所以正解应该是大于等于A表的条数

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

司小幽

真诚赞赏,手留余香。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值