![](https://img-blog.csdnimg.cn/043c9f555e714022a924b8598a9704df.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
面试
文章平均质量分 79
找到一份满意的工作
ChlinRei
。。。。。。
展开
-
大数据研发工程师面试
AUC,ROC,准确率与召回率都是怎么计算的数据清洗是如何清洗的要做哪些清洗的工作什么是数据的完整性数仓是怎么设计的?linux查看进程的命令是什么如何查看具体某一行的内容(查看第n至m行)从浏览器输入网址到返回页面,中间发生了什么三次握手四次挥手HTTP和HTTPS的区别HDFS的理解?hadoop对put一个文件集群发生了什么hadoop数据如何存储?UDF函数有哪些工作原理是什么spark的driver和executor的理解python的垃圾回收机制深拷贝和浅拷贝是什么如何复制一个python对象原创 2023-11-16 11:30:37 · 443 阅读 · 0 评论 -
大数据开发面试(一)
本文所含面试题:Kafka和Flume的应用场景?LightGBM和XGBoost的使用场景有什么不一样?做ETL的时候遇到数据倾斜怎么处理?小文件呢?已知成绩表和学生表,查询各科成绩前三名的记录?Hive SQL优化性能的原则是什么?原创 2023-11-15 10:09:50 · 391 阅读 · 0 评论 -
面试公司ETL工程师(实习生)——笔试面试题(SQL)
查出“张三”的购买清单。统计“张三”每个月的购买金额。统计每个人在每个平台下的购买总次数和购买总金额。查出在“京东”买过东西的人,在所有电商平台的购买清单。统计“天猫”购买的前2名,按每个人的购买总金额排名。统计“张三”每个月的购买金额,每个月比上个月多花多少钱。统计每个人的消费情况,按以下结果显示,消费总额大于1000为星级客户。写出你知道的sql优化方法。引擎优化、索引优化、读写分离、limit、避免select *原创 2022-12-07 08:00:00 · 703 阅读 · 0 评论 -
大数据常见面试题
spark支持三种自定义函数,UDF、UDAF(用户自定义聚合函数)、UDTF(用户自定义生成函数)UDAF和UDTF都需要继承对应的自定义函数类,实现相应的抽象方法才可以使用UDF则可以在spark.udf.register方法中使用函数直接注册使用。hive通过设置开启动态分区。可以在插入数据时根据表中某字段值决定分区,当分区字段完全由变量决定时称为动态分区,若有常量限制则称为混合分区,若完全由常量决定分区时称为静态分区。自定义分区器。原创 2022-09-27 08:10:48 · 764 阅读 · 0 评论