大数据面试题_千叶真尹的博客-CSDN博客

大数据面试题

关注

文章平均质量分 64

大数据面试题

关注数：文章数：17 文章阅读量：3028 文章收藏量：7

作者: 千叶真尹

这个作者很懒，什么都没留下…

展开

SQL相关

设置一个flag，用户每进入一次，flag设为1，每退出一次，flag设为-1。计算每个视频类型下面播放量前10的视频id。a b 表示a关注b。求直播间最大在线人数。

原创 2022-09-29 09:29:33 · 164 阅读 · 1 评论
项目面试题

为什么要做这个项目？是为了解决什么问题？项目的性质是什么？多少个人完成？你负责了什么工作？有什么亮点？难点？运用了哪些技术?有什么收获？ODS层采用什么压缩方式和存储格式？压缩采用Snappy，存储采用orc，压缩比是100g数据压缩完10g左右。DWD层做了哪些事？数据清洗空值去除过滤核心字段无意义的数据，比如订单表中订单id为null，支付表中支付id为空对手机号、身份证号等敏感数据脱敏对业务数据传过来的表进行

原创 2022-05-29 11:22:43 · 98 阅读 · 0 评论
算法面试题

1. 内存受限的情况下，有一个整数数组，请你根据快速排序的思路，找出数组中第K大的数：用mapreduce的思想，首先对数据进行哈希，将hash后的值按照范围划分到不同的机器上，这样每台机器就只处理一部分数据，然后统计每台机器上出现次数最多的前N个数据，然后将每台机器统计出来的结果进行汇总，再求出总的前N个数据。............

原创 2022-05-29 10:01:50 · 47 阅读 · 0 评论
Java面试题

1.Hashmap和treemap的异同异:Hashmap中元素无序，通过hashcode查找，treemap中元素按照某一顺序排列 Hashmap基于hash表实现，treemap基于红黑树实现 Hashmap适用于map插入、删除、定位元素，treemap适用于按自然顺序遍历同：1.都是线程不安全的2.说说多态1.多态是同一个对象，在不同的时刻表现出来的不同状态2.前提：（1）有继承或者实现（2）有方法的重写（3）父类的引用指向子类对象3.多态特点：表现为.......

原创 2022-05-29 09:54:16 · 415 阅读 · 0 评论
离线性能优化

离线性能优化

原创 2022-06-24 15:39:44 · 123 阅读 · 0 评论
开发经验介绍

去重指标的增量计算优化方案1 背景统计最近30天的uv（去重指标）select visitor_idfrom (select item_id ,count(distinct visitor_id) as ipv_uv_1d_001 from tbcdm.dwd_tb_log_obj_vst_di where ds <= '{bizdate}' and ds >= to_char(datea

原创 2022-08-11 17:10:39 · 420 阅读 · 0 评论
数据质量监控

数据质量监控与保障：数据质量保障的学习，包括方法，数据测试，DQC配置，能发现数据问题，排查问题，解决问题，总结问题数据质量是数据开发里面非常重要的，错误的数据可能还会带来错误的决策。我们主要是监控数据的准确性、完成行、一致性、及时性。采取的措施是三步法：事前-事中-事后。事前主要通过自测，sqlscan，事中主要通过dqc进行监控，事后主要是处理分析，沉淀方法。准确性：数据信息是否存在存在错误或异常，是否符合业务预期，如号码位数是否正确，统计指标是否正常完整性：数据记录和信息是否完整，如数据记录缺失、字

原创 2022-06-24 15:51:38 · 452 阅读 · 0 评论
数据库面试题

1.数据库隔离等级1.脏读：事务A读取到了事务B未提交的数据2.不可重复读：两次查询结果不一致，因为两次查询中间有另外一个事务往里面更新了数据，不可重复读和脏读的区别：脏读读到的是一位未提交的数据，不可重复读读到的是前一个事务提交的数据，解决不可重复读就是多读几次，以最后一次为准，或者锁行3.幻读：幻读和不可重复读都是读取另外一个已经提交的事务，但是不可重复读一般是发生在update时，数据被修改，幻读发生在insert或者delete时，数据会多出来一条，解决幻读可以锁表隔离.

原创 2022-05-29 09:59:58 · 61 阅读 · 0 评论
Kafka面试题

1.kafka为什么快1.数据压缩，减少网络IO，压缩格式包括Gzip、Snappy2.批量传输，先将消息缓存在内存中，然后达到某个条件（比如到多少条数据，或者到几秒钟）就flush一次，flush到磁盘上3.顺序读写，避免随机寻址，写入时是单个partition末尾添加4.利用操作系统的page cache优化读写5.零拷贝技术。在producer和consumer两个方面都使用了零拷贝技术。网络数据持久化到磁盘 (Producer 到 Broker)。（使用了mmap）磁盘文

原创 2022-05-29 10:08:32 · 190 阅读 · 0 评论
Yarn面试题

1.Yarn任务提交过程1.Client向rm提交程序，申请运行时需要的资源2.ResourceManager收到请求之后，调用ApplicationManager向NodeManager发送请求，申请一个资源（Container），并且要求Container启动ApplicationMaster.3.ApplicationMaster启动之后，首先注册自己到ResourceManager，然后为自己的Task申请Container，ResourceManager收到请求之后，会要求NodeMa

原创 2022-05-29 10:05:03 · 218 阅读 · 0 评论
HDFS面试题

1.2nn作用帮助nn进行管理，nn主要存储元数据信息，当nn运行的时候，元数据信息是存在内存中的，也可以持久化到磁盘上。持久化到磁盘上有两个文件，一个是fsimage，一个是edits log。Fsimage是nn启动时的一个快照，edits log是nn启动后做的改动。只有当nn重启时，edits log才会合并到fsimage中，但是nn不会经常重启，因此edits log就会变得很大。此时2nn会将edits log中的信息更新到自己的fsimage中，然后将自己的fsimage复制给nn的

原创 2022-05-29 10:05:49 · 61 阅读 · 0 评论
MapReduce面试题

1. MR是怎么确定MapTask数量的如果不进行任何设置，默认的map个数是和blcok_size相关的。default_num = total_size / block_size;如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件2. MapReduce流程（1）首先是对文件进行切片split，根据文件的大小和block的大小进行切片。默认block为128M（2）然后对切片后的数据解析问key-value。key为偏移量，value为具体的内容

原创 2022-05-29 10:07:22 · 140 阅读 · 0 评论
ZooKeeper面试题

1.zookeeper选举机制1.初始化时的选举优先看zxid，zxid相同的情况下看myid集群启动时，1号zxid=0,myid=1，2号zxid=0,myid=2，3号zxid=0,myid=31号启动，先投给自己一票2号启动，zxid与1号相同，myid比1号大，因此1号投给2号，2号也投给2号，超过半数，因此2号成为leader，1号成为follower3号启动，已经有了Leader，3号成为follower当选举结束后，更新状态，Leader更新为Leading，fo

原创 2022-05-29 10:10:13 · 46 阅读 · 0 评论
Flink面试题

1.WatermarkAssignerWithPeriodicWatermarks当flink基于eventtime的时间窗口处理数据时，必须确定所有该时间窗口内的数据全都进入之后，才会开始处理数据，由于数据可能是乱序的，在watermark里面有个时间戳，flink会使用watermark标记所有小于该时间戳的消息都已流入，当操作符处理到WaterMark时，它对所有小于该WaterMark时间戳的时间窗口的数据进行处理并发送到下一个操作符节点，然后也将WaterMark发送到下一个操作符节点

原创 2022-05-29 10:11:32 · 284 阅读 · 0 评论
Linux面试题

1.查看内存的指令free 内容：总内存、使用内存、剩余内存等

原创 2022-05-29 10:13:11 · 43 阅读 · 0 评论
Hadoop面试题

1.Hadoop高可用有2台机器，2个namenode，一个active，一个standby有一个守护进程journalnodes，会和2个nn进行通信，当activeNN对命名空间信息修改时，会持久化到editslog上，然后standbyNN观察editslog，并更新自己的信息，保持信息和activeNN同步。还有一个zookeeper failover controller，通过zookeeper failover controller里面的health monitor监控NN，如果ac

原创 2022-05-29 10:06:32 · 45 阅读 · 0 评论
Sqoop面试题

mapreduce，具体的说，是map任务。

原创 2022-08-22 15:06:20 · 241 阅读 · 0 评论

大数据面试题

作者: 千叶真尹

SQL相关

项目面试题

算法面试题

Java面试题

离线性能优化

开发经验介绍

数据质量监控

数据库面试题

Kafka面试题

Yarn面试题

HDFS面试题

MapReduce面试题

ZooKeeper面试题

Flink面试题

Linux面试题

Hadoop面试题

Sqoop面试题