大数据面试题
文章平均质量分 64
大数据面试题
千叶真尹
这个作者很懒,什么都没留下…
展开
-
SQL相关
设置一个flag,用户每进入一次,flag设为1,每退出一次,flag设为-1。计算每个视频类型下面播放量前10的视频id。a b 表示a关注b。求直播间最大在线人数。原创 2022-09-29 09:29:33 · 164 阅读 · 1 评论 -
项目面试题
为什么要做这个项目?是为了解决什么问题?项目的性质是什么?多少个人完成?你负责了什么工作?有什么亮点?难点?运用了哪些技术?有什么收获?ODS层采用什么压缩方式和存储格式?压缩采用Snappy,存储采用orc,压缩比是100g数据压缩完10g左右。DWD层做了哪些事? 数据清洗 空值去除 过滤核心字段无意义的数据,比如订单表中订单id为null,支付表中支付id为空 对手机号、身份证号等敏感数据脱敏 对业务数据传过来的表进行原创 2022-05-29 11:22:43 · 98 阅读 · 0 评论 -
算法面试题
1. 内存受限的情况下,有一个整数数组,请你根据快速排序的思路,找出数组中第K大的数:用mapreduce的思想,首先对数据进行哈希,将hash后的值按照范围划分到不同的机器上,这样每台机器就只处理一部分数据,然后统计每台机器上出现次数最多的前N个数据,然后将每台机器统计出来的结果进行汇总,再求出总的前N个数据。............原创 2022-05-29 10:01:50 · 47 阅读 · 0 评论 -
Java面试题
1.Hashmap和treemap的异同异:Hashmap中元素无序,通过hashcode查找,treemap中元素按照某一顺序排列 Hashmap基于hash表实现,treemap基于红黑树实现 Hashmap适用于map插入、删除、定位元素,treemap适用于按自然顺序遍历同:1.都是线程不安全的2.说说多态1.多态是同一个对象,在不同的时刻表现出来的不同状态2.前提:(1)有继承或者实现(2)有方法的重写(3)父类的引用指向子类对象3.多态特点:表现为.......原创 2022-05-29 09:54:16 · 415 阅读 · 0 评论 -
离线性能优化
离线性能优化原创 2022-06-24 15:39:44 · 123 阅读 · 0 评论 -
开发经验介绍
去重指标的增量计算优化方案1 背景统计最近30天的uv(去重指标)select visitor_idfrom (select item_id ,count(distinct visitor_id) as ipv_uv_1d_001 from tbcdm.dwd_tb_log_obj_vst_di where ds <= '{bizdate}' and ds >= to_char(datea原创 2022-08-11 17:10:39 · 420 阅读 · 0 评论 -
数据质量监控
数据质量监控与保障:数据质量保障的学习,包括方法,数据测试,DQC配置,能发现数据问题,排查问题,解决问题,总结问题数据质量是数据开发里面非常重要的,错误的数据可能还会带来错误的决策。我们主要是监控数据的准确性、完成行、一致性、及时性。采取的措施是三步法:事前-事中-事后。事前主要通过自测,sqlscan,事中主要通过dqc进行监控,事后主要是处理分析,沉淀方法。准确性:数据信息是否存在存在错误或异常,是否符合业务预期,如号码位数是否正确,统计指标是否正常完整性:数据记录和信息是否完整,如数据记录缺失、字原创 2022-06-24 15:51:38 · 452 阅读 · 0 评论 -
数据库面试题
1.数据库隔离等级1.脏读:事务A读取到了事务B未提交的数据2.不可重复读:两次查询结果不一致,因为两次查询中间有另外一个事务往里面更新了数据,不可重复读和脏读的区别:脏读读到的是一位未提交的数据,不可重复读读到的是前一个事务提交的数据,解决不可重复读就是多读几次,以最后一次为准,或者锁行3.幻读:幻读和不可重复读都是读取另外一个已经提交的事务,但是不可重复读一般是发生在update时,数据被修改,幻读发生在insert或者delete时,数据会多出来一条,解决幻读可以锁表隔离.原创 2022-05-29 09:59:58 · 61 阅读 · 0 评论 -
Kafka面试题
1.kafka为什么快1.数据压缩,减少网络IO,压缩格式包括Gzip、Snappy2.批量传输,先将消息缓存在内存中,然后达到某个条件(比如到多少条数据,或者到几秒钟)就flush一次,flush到磁盘上3.顺序读写,避免随机寻址,写入时是单个partition末尾添加4.利用操作系统的page cache优化读写5.零拷贝技术。在producer和consumer两个方面都使用了零拷贝技术。网络数据持久化到磁盘 (Producer 到 Broker)。(使用了mmap)磁盘文原创 2022-05-29 10:08:32 · 190 阅读 · 0 评论 -
Yarn面试题
1.Yarn任务提交过程1.Client向rm提交程序,申请运行时需要的资源2.ResourceManager收到请求之后,调用ApplicationManager向NodeManager发送请求,申请一个资源(Container),并且要求Container启动ApplicationMaster.3.ApplicationMaster启动之后,首先注册自己到ResourceManager,然后为自己的Task申请Container,ResourceManager收到请求之后,会要求NodeMa原创 2022-05-29 10:05:03 · 218 阅读 · 0 评论 -
HDFS面试题
1.2nn作用帮助nn进行管理,nn主要存储元数据信息,当nn运行的时候,元数据信息是存在内存中的,也可以持久化到磁盘上。持久化到磁盘上有两个文件,一个是fsimage,一个是edits log。Fsimage是nn启动时的一个快照,edits log是nn启动后做的改动。只有当nn重启时,edits log才会合并到fsimage中,但是nn不会经常重启,因此edits log就会变得很大。此时2nn会将edits log中的信息更新到自己的fsimage中,然后将自己的fsimage复制给nn的原创 2022-05-29 10:05:49 · 61 阅读 · 0 评论 -
MapReduce面试题
1. MR是怎么确定MapTask数量的如果不进行任何设置,默认的map个数是和blcok_size相关的。default_num = total_size / block_size;如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件2. MapReduce流程(1)首先是对文件进行切片split,根据文件的大小和block的大小进行切片。默认block为128M(2)然后对切片后的数据解析问key-value。key为偏移量,value为具体的内容原创 2022-05-29 10:07:22 · 140 阅读 · 0 评论 -
ZooKeeper面试题
1.zookeeper选举机制1.初始化时的选举优先看zxid,zxid相同的情况下看myid集群启动时,1号zxid=0,myid=1,2号zxid=0,myid=2,3号zxid=0,myid=31号启动,先投给自己一票2号启动,zxid与1号相同,myid比1号大,因此1号投给2号,2号也投给2号,超过半数,因此2号成为leader,1号成为follower3号启动,已经有了Leader,3号成为follower当选举结束后,更新状态,Leader更新为Leading,fo原创 2022-05-29 10:10:13 · 46 阅读 · 0 评论 -
Flink面试题
1.WatermarkAssignerWithPeriodicWatermarks当flink基于eventtime的时间窗口处理数据时,必须确定所有该时间窗口内的数据全都进入之后,才会开始处理数据,由于数据可能是乱序的,在watermark里面有个时间戳,flink会使用watermark标记所有小于该时间戳的消息都已流入,当操作符处理到WaterMark时,它对所有小于该WaterMark时间戳的时间窗口的数据进行处理并发送到下一个操作符节点,然后也将WaterMark发送到下一个操作符节点原创 2022-05-29 10:11:32 · 284 阅读 · 0 评论 -
Linux面试题
1.查看内存的指令free 内容:总内存、使用内存、剩余内存等原创 2022-05-29 10:13:11 · 43 阅读 · 0 评论 -
Hadoop面试题
1.Hadoop高可用有2台机器,2个namenode,一个active,一个standby有一个守护进程journalnodes,会和2个nn进行通信,当activeNN对命名空间信息修改时,会持久化到editslog上,然后standbyNN观察editslog,并更新自己的信息,保持信息和activeNN同步。还有一个zookeeper failover controller,通过zookeeper failover controller里面的health monitor监控NN,如果ac原创 2022-05-29 10:06:32 · 45 阅读 · 0 评论 -
Sqoop面试题
mapreduce,具体的说,是map任务。原创 2022-08-22 15:06:20 · 241 阅读 · 0 评论