大数据工程师（ETL）面试系列（1）

最新推荐文章于 2025-03-19 13:50:58 发布

司小幽

最新推荐文章于 2025-03-19 13:50:58 发布

阅读量2.5w

点赞数 17

分类专栏：大数据求职面试 # SQL 文章标签：大数据 sql 面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BlackEnn/article/details/63684402

版权

大数据同时被 3 个专栏收录

15 篇文章

订阅专栏

11 篇文章

订阅专栏

5 篇文章

订阅专栏

本文探讨了Spark与Hadoop的主要区别，并详细分析了Python与Java的使用特点。此外，还通过具体例子解释了左连接(left join)在不同情况下的结果差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#1. 你觉得Spark和Hadoop的区别是什么,请简要说一说？
我：Hadoop适合离线分析，是批处理；Spark适合实时分析，是近实时流，微批处理。

#2. 你觉得Python和Java在使用起来，有什么区别？
我：其实自己在平时使用的时候,并没有过度割裂开这两种，因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号，最后可以实现我的需求就可以了。
补：如今，再来审视这个问题，会发现其实在使用过程中，Python，Java确实有一些需要你拐个弯注意下的，比如【Python】list的remove函数和【Java】list的remove方法，同名异能。以及Python一些轮子如何用Java去实现也是要注意的。

#3. 给你两张表，表A和表B，其中表A有3条数据，表B有5条数据，问：表A left join 表B后有几条？
我：小于等于A表条数，也就是小于等于3条
补：现在看来，当时陷入了工作中带来的一个误区，就是面试官可没说join的字段是主键，它可以不唯一哈，不唯一就会导致大于3条，因为有重复，而B表记录不足的地方均为NULL，所以可能小于吗？不信客官你看：
例1：
A表的记录数在B表中全都有且B表id唯一
A表数据

B表数据

A left join B

例2
A表的记录在C表中有缺失但C表记录唯一：

A表数据

C表数据

A left join C

例3
A表的记录在D表中全都有但D表id不唯一：

A表数据

D表数据

A left join D

所以正解应该是大于等于A表的条数

博客等级

码龄11年

126
原创

61
点赞

344
收藏

280
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

AWVS使用指南
weixin_45334765: 第五部登陆不了网站咋回事一直在加载资源
Python日志应用
北风之神c: 写得赞，博主用心了。此国产日志 https://github.com/ydf0509/nb_log 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。相比 loguru 有10胜。 pip install nb_log 。
Burpsuite1.7使用指南&渗透测试方法大全
沐雨听枫: 就很nice 这种课程也很多靠不靠谱啊
Burpsuite1.7使用指南&渗透测试方法大全
司小幽: 给你个路子，淘宝搜
Burpsuite1.7使用指南&渗透测试方法大全
沐雨听枫: 这个burp suite有没有什么比较全面教程资源，看了好多都是千篇一律，就你这篇还有点帮助

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

司小幽 真诚赞赏，手留余香。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。