- 博客(1981)
- 资源 (1)
- 收藏
- 关注

原创 大数据方向学习进阶知识图谱
总体描述:大数据开发岗位技能树,学习和复习总纲。关键词:面试 大数据 大纲正所谓,无招胜有招。愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。一切技术最终只是雕虫小技。大纲本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。本...
2019-09-08 20:51:10
2621
1
转载 Apache Paimon核心原理和Flink应用进阶
这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章,你最好收藏一波。1.1 简介Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink ...
2023-12-08 09:30:32
8
转载 大数据指标中台构建核心技术解析
导读本文将分享网易数帆在指标中台构建方面的实践。主要围绕以下四个方面展开:1.网易数帆大数据产品介绍2.网易数帆指标中台3.指标中台核心技术解析4.未来规划及展望01网易数帆大数据产品介绍1.网易数据分析的发展历史网易自 2006 年开始使用大数据技术组件,如分布式数据库、分布式文件系统、分布式搜索引擎,支撑了网易互联网 2.0 时代的产品。自 2009 年开始基于 Hadoop 构建...
2023-12-05 09:40:28
105
转载 Flink + Paimon 数据 CDC 入湖最佳实践
前言Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入湖,看完这篇文章,你可以了解到:为什么从 CDC 入 Hive 迁移到 Paimon?CDC 入 Paimon 怎么样做到成本最低?Paimon 对比 Hudi 有什么性能优势?Paimon 从 CDC 入湖场景出发,希望提供给你简单、低成本、低延时的一键入湖。本文基于 Paimo...
2023-11-28 09:30:36
193
原创 生产环境面试问题,指标类问题。面试官知识盲区,让他回家等消息!
今天说说指标类问题你在面试中会被问到的问题。我们抛开指标开发涉及到的技术点不谈,聊一下更偏重实际业务背景,二面及以上面试官关注的宏观和问题。这问题答得好,让面试官回家等消息,答得不好,你回家等消息。在实际工作中,因为业务本身逻辑复杂,迭代迅速,指标会越来愈多。指标之间也会互相影响,所以两大类问题摆在大家面前:第一,你怎么处理爆炸增长的指标数量问题第二,如何进行指标的异常、归因分析第一个问题很简单,...
2023-11-22 09:46:00
1072
原创 生产环境中的面试问题,实时链路中的Kafka数据发现某字段值错误,怎么办?
大家好呀,今天分享的是一个生产环境中遇到的问题。也是群友遇到的一个面试问题。原问题是:早晨8点之后发现kafka的record中某个字段的值出现了错误,现在已经10点了,需要对kafka进行数据订正,怎么样定位和解决这个问题,达到最快响应和最小影响。这个问题是一个很「大」的问题,我们挑重点的说。首先,我们在做数据开发的过程中涉及到一些基本要素:时效性保障、质量保障、稳定性保障,此外还有敏捷性、可管...
2023-11-13 09:30:48
668
转载 全网独一份!GPT+AI大模型资源,数据人请低调使用!
随着ChatGPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘AI大模型人才!作为普通程序员,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑程序员核心竞争力(不限年龄!不限...
2023-11-11 12:01:43
354
原创 211硕士Java实习全挂!不想卷后端了,大数据方向想快速入门找实习,该怎么做?
今天给大家分享的是一个球友的提问,如果你也正好是应届生再找实习,那么也可以照着这个方向去学习。问题是这样的:某211学校。Java后端学了大概半年时间,前段时间找日常实习,海投一些大厂,简历全挂!只有滴滴约面,但是二面挂了!我算法题大概250题左右,熟悉java八股文。不想卷java后端开发了,现在我想转大数据方向,想快点找个日常实习。现在比较迷茫,不知道大厂对大数据日常实习的要求!包括技术栈,S...
2023-11-10 09:30:12
357
原创 Flink1.18新特性生产环境应用的重点解读!
大家好,我是你们的群主王知无呀。Flink 1.18已经于近期发布了。在这个新版本中新增了很多新的功能和特性。在这些特性中,有一些是生产环境非常重要的能力,大家在使用过程中可以重点参考和了解其中的原理。算子级别状态保留时间TTL设置首先,在流处理的提升上,从 Flink 1.18 版本开始,Table API 和 SQL 用户可以为有状态的算子单独设置状态保留时间 (TTL)。这个功能是一个非常实...
2023-10-30 09:30:49
1121
转载 B站数据质量保障体系建设与实践
300万字!全网最全大数据学习面试社区等你来!01背景目标首先,分享一下 B 站数据质量保障的背景和目标。B 站数据建设的历史演进可以分为四个阶段。数据库阶段。在这个阶段B 站处于初创阶段,业务也在初步发展中,数据逐渐受到各方的重视。这一阶段的质量保障重点在于设计测试用例、验证数据正确性,并进行数据库的监控和调优。数据仓库阶段。这个阶段的出现是因为随着业务的发展,各方对数据的需求也日益增加,更加...
2023-10-23 11:45:20
628
1
转载 yyds!懂行的数据人都开始用ChatGPT搞钱了!
国内 AI 又“杀疯了”!近日,百度重磅发布十余款 AI 原生应用,AI 走向应用的时代,真的要来了。市场上,相关技术岗位增速已高达430%!AI 大模型工程师“一将难求”,甚至开出60k*16的高薪,挖掘 AI 大模型人才。作为普通程序员,这是一次不可错过的机会:大家都是从“新”起步,谁先尝试,谁就能成为首批吃到红利的稀缺人才。如果再继续观望、犹豫、焦虑下去,可能真的会因此错过一个时代的机会!试...
2023-10-21 12:04:53
577
原创 面试官:你有点东西,但是不多。想看你表演,你不知所措...
大家好,我是卷王呀。今天回答一个问题。球友提问我每次在面试的时候问我项目经历有啥难点,我每次都不知道咋说。做项目时候就是天天写SQL,写简单的Java,感觉没遇到啥难点。请问下难点这块描述该咋整呀。总结一句话:面试官感觉你有点东西,但是不多。想看你表演,你不知所措...为什么这样?这个问题是很多小伙伴遇到过的问题,无论是社招还是校招。我们在写简历的时候最核心的部分就要说清楚过去的工作经历中遇到的有...
2023-10-19 09:45:18
581
原创 大数据开发求职自救,上岸大厂的心路历程!
这阵子事情有些多,文章更新的不频繁,不过本周就会有所好转。面向大厂和大甲方公司的《大数据高阶训练营》还在持续,详情直接戳链接!本文的主人公是知识星球的一位球友,讲述自己秋招上岸的经历,供大家参考!主人公的一些背景和经历硕士,LeetCode 刷题量算上SQL一共300+,目前收到某大厂大数据开发Offer,个人满意,秋招结束。方向选择由于过去经历颇为丰富,有产品、算法、后端、运营经验,懂一点点Ja...
2023-10-17 09:40:58
587
转载 下次面试官再问ClickHouse的优化手段就知道怎么答了!
300万字!全网最全大数据学习面试社区等你来!OLAP作为一个我们重度依赖的组件,它的优化也是我们在实际工作和面试中经常遇到的问题。数据模型和表结构优化规范化与反规范化权衡规范化是通过消除数据冗余来提高数据一致性的过程。规范化的优点是减少数据冗余,降低数据维护成本;但它可能导致查询性能下降,因为需要进行更多的表连接操作。反规范化是通过允许部分数据冗余来提高查询性能的过程。反规范化的优点是提高查询性...
2023-10-07 09:45:29
702
原创 透过现象看本质,3个面试问题看面试官究竟要问什么?
300万字!全网最全大数据学习面试社区等你来!本篇文章较短,是一个同学的真实面试问题,这些问题看起来很简单,但是并不好回答。我们作为面试者回答这些问题,你的回答会直接影响你的面试评价。我们从这几个简单的问题来看下面试官在问什么?1. 线上实时作业的qps是多少?你以为的答案这个问题看起来非常简单,直接回答1万,10万等等。面试官真正想要的面试官想通过这个问题了解你的业务规模,数据规模,数据接入方式...
2023-09-25 18:04:48
838
转载 字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践
300万字!全网最全大数据学习面试社区等你来!/ 主流数仓架构 /目前主流的数仓架构—— Lambda 架构,能够通过实时和离线两套链路、两套代码同时兼容实时数据与离线数据,做到通过批处理提供全面及准确的数据、通过流处理提供低延迟的数据,达到平衡延迟、吞吐量和容错性的目的。在实际应用中,为满足下游的即席查询,批处理和流处理的结果会进行合并。Lambda 架构的优势集中体现在职责边界明确、高容错性与...
2023-09-18 11:45:07
930
原创 来了来了,2023年某中大厂真实面经!
300万字!全网最全大数据学习面试社区等你来!本篇文章的面经是我辅导的一个同学的真实面试经历!2023年校招的宝子们拿走快看!第一个面经来自某头部大厂:1.做过的项目细节和遇到的问题(30分钟)所以说大家要对简历中的项目细节了如指掌!2.实习工作介绍(5min)3.数据倾斜有哪几种解决方法4.Hdfs小文件危害,元数据压垮namenode,怎么处理?5.为什么开启map—joi...
2023-09-14 09:50:52
956
原创 站在大数据行业山顶看风景
大家好,我是你们的朋友王知无。从2022年开始应很多小伙伴的邀请和咨询,我以个人的名义开了自己的《面向国内Top企业的大数据训练营》。最初这个过程我的内心非常忐忑,从备课、直播、答疑、1对1指导,再到同学们找工作的过程中Offer比较,入职后线上问题和技术方案解答,每一步都付出了巨大努力。到今天为止,取得了非常瞩目的成绩!上面是最近几周内同学拿到的新的Offer!这个训练营主要是我自己打造的专门面...
2023-09-01 11:50:31
1100
原创 大厂招人五要素
300万字!全网最全大数据学习面试社区等你来!很多同学都想进入大厂或者大的甲方公司,尤其是大数据开发这个方向,岗位也集中在头部的这一批公司。这两年进入大厂的门槛也越来越高,那么进入这些公司有哪些条件?今天抽时间盘点一下进入大厂的几个核心要素,想进入大厂的同学好好听!1.教育背景985/211,QS排名前100的同学是特别受大公司欢迎的。因为较好的学历背景代表你的聪明程度、学习能力、新事物的接受能力...
2023-08-28 09:50:40
1103
转载 字节跳动基于DataLeap的DataOps实践
本文根据 ArchSummit 全球架构师峰会(深圳站)来自抖音数据研发负责人王洋的现场分享实录整理而成(有删减),本次分享主要包含字节跳动数据研发的模式与挑战、DataOps理念在字节的具象 、DataOps产品化及落地、最佳实践、未来展望五个部分,分享内容皆来自于字节跳动业务实践经验。字节跳动数据研发的模式与挑战中台工具+数据BP模式字节在落地DataOps的过程当中,与我们数据支持所采用的...
2023-08-22 11:50:09
1102
原创 StreamingWarehouse的一些思考和未来趋势
300万字!全网最全大数据学习面试社区等你来!一篇笔记。以Hudi、Iceberg、Paimon这几个框架为例,它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性,主要有几个方面:这些存储引擎是天然统一的批流一体存储。既支持批式访问完整Table数据,也支持先全量处理Table数据,然后对Changelog进行增量的流式处理;支持UPSERT流,这个很重要...
2023-08-21 17:59:42
1316
原创 Doris2.0时代的一些机遇和挑战!
300万字!全网最全大数据学习面试社区等你来!上个周五的时候,Doris官宣了2.0版本,除了在性能上的大幅提升,还有一些特性需要大家特别关注。根据官网的描述,Doris在下面领域都有了长足进步:日志分析数据湖联邦分析场景数据更新效率和写入资源弹性和存算分离其他面向企业用户的易用性特性在Doris出现这些能力之前,大家是没有机会免费用到这些能力的。数据库的这些能力集中在云平台上的一些付费数据库,不...
2023-08-14 09:45:48
1613
原创 基于Doris实时数据开发的一些注意事项
300万字!全网最全大数据学习面试社区等你来!最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。基于Doris的一些存储实时数仓在越来越多的场景中开始有一些实践。大家也看到了这种方案频繁出现在社区分享中。但是我们得客观看待这种方案,基于存储的实时数仓有优势也有他的劣势,生产环境中我们要谨慎评估个人的业务场景。这篇文章我结合个人的实践和思...
2023-08-07 11:55:59
1537
原创 大数据面试实际场景类问题怎么准备,实在遭不住了!
300万字!全网最全大数据学习面试社区等你来!前几天我发了一个面试总结的文章,实际场景类问题在大数据领域面试的占比越来越多。大家面试开始「务实」,在实际场景问题中,顺便增加对框架原理性内容的考察,这绝对是大数据领域内的一个进步,但是同时对工作经验较浅,平时缺少思考的同学们提出了巨大挑战!这篇文章总结一下,此类问题的背景和应对方式。背景我站在面试官的角度,认为实际场景问题的考察越来越多的原因主要是以...
2023-07-31 17:50:18
1237
转载 网易云音乐实时数仓治理优化实践
300万字!全网最全大数据学习面试社区等你来!导读今天分享的主题是实时数仓治理的优化实践。全文目录:现状问题治理实践技术优化未来规划Q&A01现状和问题1. 现状和问题云音乐数仓平台已经上线使用超过6年时间,目前累计用户(包括离职人员)超过700人,每日UV超过200,涉及数仓开发、数据产品、分析师、算法、业务开发、QA等几乎所有角色的开发人员。覆盖了音乐所有的业务线,一些典型的业务类型...
2023-07-24 11:45:29
1248
原创 面试完国内5家中大厂,总结如下
300万字!全网最全大数据学习面试社区等你来!总结如下:1. 关于刷题(10%)个人准备了Hot100中的简单、中等和常见的Hard,以及SQL题。有2家公司象征性的考了算法题,这个过程感受最深的是,写题过程互动很重要,说清思路即可。考察算法的过程基本是在面试的最后阶段,可能前面发挥的比较好,这个阶段很轻松。2. 项目面试(60%)所有公司都详细问了过去做的项目,内容分布:2.1 详细讲解了业务背...
2023-07-21 15:11:44
1164
原创 大数据云平台使人退步。
300万字!全网最全大数据学习面试社区等你来!昨天在直播的时候有同学问了一个问题。为什么很多公司看到简历上全是阿里/腾讯/华为云上的技术栈,就突然不感兴趣了。今天我们聊聊这个问题。很多的中小公司,非常喜欢直接购买云上的产品,例如在大数据开发领域,阿里云上的MaxCompute和DataWorks独步天下,经过近20年的打磨,已经成为大数据开发领域内的标杆产品。很多大公司在建设自家平台的过程中都会...
2023-07-19 16:31:42
1167
转载 Hive/Spark/Flink增量查询Hudi最佳实践一网打尽
300万字!全网最全大数据学习面试社区等你来!一、Hive增量查询Hudi表同步Hive我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。例如,如果table name = hudi_tbl,我们得到hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读...
2023-07-17 12:26:31
1375
2
转载 火山引擎 DataLeap 套件下构建数据目录(Data Catalog)系统的实践
一、摘要Data Catalog 产品,通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Data Catalog系统的构建和迭代过程,概要介绍核心设计以及部分关键实现。二、背景1、元数据与Data Catalog元数据,一般指描述数据的数据,对数据及信息资源的描述性信息。在当...
2023-07-12 11:45:42
1124
转载 ApacheDoris系列|Bucket(分桶)数量设置和自动分桶
300万字!全网最全大数据学习面试社区等你来!1. Bucket(分桶)数量设置不当带来的问题问题描述:上线运行一段时间后,随着越来越多的数据增长,集群每次重启后一周左右,读写就会开始变得越来越慢,直到无法正常进行读写。问题处理:对数仓表的 Schema 的分析,发现有些表数据并不大,但是 Bucket 却设置的非常大通过show data from table命令列出所有表Bucket信息,大部...
2023-07-11 17:56:01
1408
转载 基于Apache Paimon实现流式数仓实践
300万字!全网最全大数据学习面试社区等你来!摘要本文主要介绍作为供应链物流服务商海程邦达在数字化转型过程中采用 Paimon 实现流式数仓的落地方案。我们提供一个适用于 k8s 环境并且易于上手的生产操作手册,旨在帮助读者快速掌握 Paimon 的使用方法。公司业务情况介绍大数据技术痛点以及选型生产实践问题排查分析未来规划01公司业务情况介绍海程邦达集团一直专注于供应链物流领域,通过打造优秀的国...
2023-07-04 17:45:04
1474
原创 做项目去实习到底做的什么?
300万字!全网最全大数据学习面试社区等你来!今天是手机编辑的文章,说说做项目/实习这回事。我之前发过一些视频,讲校招四要素的,其中一个很重要的部分就是实习。对社招同学来说,就简单了,面试最重要的就是项目,没有之一。那么我们在做项目,或者去实习的时候应该注意什么?我们分开讨论一下。对校招实习经历是校招同学几乎仅有的机会接触企业真实场景的方式,而且一般的实习3-6月,短的甚至只有2个月。我们实习的目...
2023-06-30 20:10:03
1984
转载 浙江首例!金华银行基于OceanBase构建新一代核心系统
6月12日,金华银行举行“星辉工程”核心项目群上线发布会,新一代核心系统部署在国产分布式数据库OceanBase上,实现系统的高可用、高性能、国产升级。据悉,这是浙江省首例基于完全国产自研数据库落地的银行核心系统。金华银行相关负责人表示:“‘星辉工程’是我行一号工程,通过本次上线,金华银行将全面加强科技对业务支撑能力,实现业务与科技的战略联动,进一步推进数智赋能,提升实体经济服务质效。”金华银行成...
2023-06-29 16:00:23
1109
原创 新能源车企上岸面经,题目简单我也会!
300万字!全网最全大数据学习面试社区等你来!这是之前一个同学的面经,经过3个月的面试,最终成功上岸某新能源头部车企,面经还热乎!第一轮1.介绍项目,项目中的重点难点2.hive的优化,这个好几家公司都问了3.hivesql的执行计4.hive和mysql的区别5.Sortby和orderby的区别6.数据倾斜的场景,如何解决的7.sql题字段:订单id,时间,用户id计算...
2023-06-27 20:31:54
1030
转载 单机数万QPS!Apache Doris高并发特性解读
300万字!全网最全大数据学习面试社区等你来!随着用户规模的极速扩张,越来越多用户将 Apache Doris 用于构建企业内部的统一分析平台,这一方面需要 Apache Doris 去承担更大业务规模的处理和分析——既包含了更大规模的数据量、也包含了更高的并发承载,而另一方面,也意味着需要应对企业更加多样化的数据分析诉求,从过去的统计报表、即席查询、交互式分析等典型 OLAP 场景,拓展到推荐、...
2023-06-22 11:46:02
1248
转载 B站实时DQC大数据质量建设之路
300万字!全网最全大数据学习面试社区等你来!背景数据质量是基于大数据衍生的应用有效与否的重要的前提和保障之一。B站现在高速发展的业务需求以及未来能够依靠大数据孵化出更有深度和竞争力应用的愿景,都要求我们数据平台能够提供实时的、准确的、可以被各个业务方所信赖的数据。可以说,可信赖的数据,是大数据平台核心竞争力的体现。因此,在B站的大数据平台的建设过程中,数据质量平台成为了不可或缺的一环,因为它的使...
2023-06-21 11:45:48
1216
转载 B站基于Hudi构建实时数据湖实战
300万字!全网最全大数据学习面试社区等你来!01背景和痛点在大数据场景应用中,业务不仅要计算数据结果,而且要保障时效性。目前,我司演化出两条链路。时效性高的数据走 Kafka、Flink 实时链路;时效性要求低的数据走 Spark 离线链路。上图简单描述了 B 站数据上报、处理和使用的链路。数据采集主要通过 APP 端上报的行为事件数据。服务端上报的日志数据会通过网关以及分发层,流式分发到大数据...
2023-06-20 11:45:14
1153
转载 如何成长为架构师
300万字!全网最全大数据学习面试社区等你来!在内网上有太多的架构相关的文章了(比如大名鼎鼎的自顶向下),我之前也写过应用架构设计的经验。但是总有种雾里看花的感觉,好像有很多相关的知识,soa、分布式事务、DDD、复杂系统重构、领域建模、业务架构、等等等,这些复杂的名词和知识感觉学了一堆仍然不得其法。所以我准备把我这些年在支付宝做架构,自己摸索成长的内容写下来,看能否帮助到大家。成长,是认知的升级...
2023-06-19 11:45:45
699
转载 爱奇艺实时数据湖平台建设实践
300万字!全网最全大数据学习面试社区等你来!导读 本文将介绍 Iceberg 在爱奇艺的落地与实践主要内容包括以下几大部分:爱奇艺 OLAP 简介为什么要数据湖数据湖平台建设性能优化业务落地1. 爱奇艺 OLAP 简介首先简单介绍一下爱奇艺 OLAP 的基本情况:存储方面,OLAP 目前支持三类存储:离线 HDFS:用于离线分析、批处理等场景;实时 Kafka:用于实时分析、在线处理等场景;...
2023-06-13 17:41:00
776
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人