自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(2014)
  • 资源 (1)
  • 收藏
  • 关注

原创 互联网末法时代的一些思考

这篇文章也是临时起意,很长一段时间没写个人思考类的文章,主要原因也是时间完全不够用。随着年龄的增长,看待问题的视角也逐渐发生变化,例如从关注现象到关注动机,从关注结果到关注起因,2021年的时代我曾经写过一篇文章《互联网最坏的时代可能真的来了》。当时写文章的目的也是工作有几个年头后,看待事物更加愿意去思考背后的本质。如果说让我对自己进行评价,说出两个最大的优点,我会说一是经常思考,二是执行力强,二...

2024-07-14 02:35:28 771

原创 最近换工作的一些启示,清华学姐篇

最近更新频率慢下来了,一部分原因是沉迷运动不能自拔,还有一部分原因是业余分出来很大的精力来拓展个人的边界,希望在工作之外取得一些成绩,写作上耽误了不少,很难做到日更。所以整体上今年更新频率较低,但是尽量保证每次写出来的东西都能给人带来一些帮助。这篇文章也是临时起意在手机上编辑的,思路可能不是很清晰,文字斟酌的也不够严谨,大家将就看。今天要分享的是辅导一个读者找工作的过程,主人公个人履历很不错,正如...

2024-07-08 20:29:11 649

转载 Doris 2.0 | 高并发点查询性能提升!

背景Doris 基于列存格式引擎构建,在高并发服务场景中,用户总是希望从系统中获取整行数据。但是,当表宽时,列存格式将大大放大随机读取 IO。Doris 查询引擎和计划对于某些简单的查询(如点查询)来说太重了。需要一个在 FE 的查询规划中规划短路径来处理这样的查询。FE 是 SQL 查询的访问层服务,使用 Java 编写,分析和解析 SQL 也会导致高并发查询的高 CPU 开销。为了解决上述问题...

2024-07-03 19:41:49 77

转载 收藏版|数据湖在快手的应用实践

导读本文将分享数据湖在快手的应用实践。文章从业务使用方的视角,全面回顾了数据湖(Hudi)在快手内部的应用推广历程,给业务开发带来的效率提升和成本优化,以及在实际应用中如何与技术团队紧密配合将 Hudi 打造为覆盖全公司、赋能多场景的核心基础设施。本次分享主要包括:1.数据湖在快手的应用历程2.数据湖在快手的应用案例3.Q&A01数据湖在快手的应用历程1.业务面临的问题与挑战(1...

2024-07-01 09:30:31 56

原创 除了写代码,有哪些技能可以让你突破瓶颈期?

深夜头脑清醒,码一些字给需要的人。2023-2024年我在B站和公众号的分享中多次提到一个词,叫做「瓶颈期」,不知道多少读者注意到了。我之前表达的意思是,一个普通人在你漫长的职场生涯或者人生路径上,大概率会遇到无法突破的平台期或者瓶颈期。这个过程我也遇到了,而且非常痛苦。在这个过程会带来情绪不稳定、思维极端、甚至抑郁等等负面影响。你需要在「向内求」与「向外求」之间找到平衡,尽量做到不伤害别人,不伤...

2024-06-26 01:05:06 738

原创 有人给我提了一个「差不多就行」的需求?

这是一个知识星球同学提的问题,这个同学是个新人。首先赞叹一句,这个问题提的相当有水平。从这个问题,大家就可以看到现在的新人的水平都在什么程度,在某种程度上超过行业内的很多老员工。这个问题如下,部分脱敏:某大厂某业务的数据团队,接触业务需求过程中,也对接了一些算法团队的需求,产生了些疑问,目前算法和数据交接的部分遇到如下问题:问题一验数重度依赖数据侧,需要加工一份数据计算每个小时的最新价格,考虑状态...

2024-06-24 22:19:36 519

转载 Apache Paimon要赢了?湖仓一体实时化时代全面开启!

摘要:本文整理自阿里云开源大数据平台负责人王峰(莫问)老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享,主要介绍在新一代湖仓架构上如何进行实时化大数据分析。内容主要分为以下五个部分:1. Data Lake + Data Warehouse = Data Lakehouse2. Apache Paimon–Unified Lake Format3...

2024-06-16 19:13:21 112

转载 为了摸鱼,我用AI自动清洗数据

数据清洗,是检测和纠正不合理数据的过程。在大多数情况下,数据分析前都需要这个过程,将错误的、不准确的、缺失的以及多余的数据进行修改或删除。具体来说,数据清洗会面临以下四个问题:存储格式不一致数据不完整存储形式不一致存储位置不一致为了有更多的时间摸鱼,最近我尝试了用 ChatGPT 解决第一个问题,「客户名称大小写不一致」。我先将需要处理的数据和提示词写出来,然后分析为什么这样写。<secti...

2024-06-12 09:31:01 129

转载 收藏级|蚂蚁金服EB级大数据治理最佳实践

导读本文将分享蚂蚁集团在大数据治理实践过程中沉淀的经验。主要分成四个部分:1.数据治理概况2.数据质量治理3.数据计存治理4.对数据治理未来的思考01数据治理概况业界对于数据治理的定义有很多种,蚂蚁在数据治理时主要关注对企业运转非常关键的架构、安全、合规、质量和价值这五个方面。为什么是这五个方面呢?首先,要保证整个数据在业务上是可以流转起来的、是可用的,包含两个基本要求:首先是要符合最近...

2024-06-04 09:30:37 112

转载 (待会删)yyds,大数据开发请低调使用!

2024年,AI进一步爆发。AI+办公软件,引发新一轮生产力革命!大部分老板都想办法在推进自动化办公。打工人沉浸式发慌:“我的饭碗真的会被AI取代吗?”原来需要花费几小时做Excel、Word,记各种函数公式……现在AI分分钟搞定!PPT模版再也不用付费买,AI秒出PPT内容和模版,瞬间高大上!还能出具各种报告!当办公技能加上AI,职场人的焦虑瞬间被点燃!事实上……AI不会让你失业,「会用AI的人...

2024-06-01 11:45:40 119

转载 从 0 到 1 构建一站式数据开发治理平台

导读火花思维作为在线教育领域的佼佼者,深知数据对于决策和运营的重要性。为进一步释放数据资源的价值,公司从 0 到 1 构建了一站式数据开发治理平台,实现了数据集成、数据开发、数据分析、数据服务等全流程整合,为公司的长远发展奠定了坚实的数据基础。主要内容包括以下几个部分:1.背景2.产品简介3.关键技术与创新点4.实施与运营5.成效与收获6.总结与展望01背景火花思维是一家专注于青少年...

2024-05-27 09:01:50 154

原创 面试中的数据模型设计问题该怎么回答?

面试中关于数据模型设计是一个很常见的问题,这个问题很宽泛、看起来很简单,但是想回答好并不容易。这篇文章很短,我们就简单聊一下这个问题。问题本身模型设计本身是一个开放性的问题,什么意思呢?这个问题并没有100%对的标准答案。当然各种社区有很多关于模型设计的方法论、规范性质的文章可以参考,但是这些理论不足以支持你拿到一个面试官满意的评价。这个问题到底该怎么回答?下面这个思路供大家参考。先说核心基础内容...

2024-05-15 09:30:44 1053

转载 第一批用AI工作的大数据开发,已经碾压同事了!

2024年,AI进一步爆发各种各样的AI工具也汹涌而至!用AI做Excel、一键生成PPT、AI生成方案……职场人的焦虑瞬间被点燃!自己的工作,真的会被AI取代吗?事实上……AI不会让你失业,“会用AI的人”才能让你失业!为了帮助各位打工人提升职场竞争力,????知乎知学堂特发起:行业前沿资源——AI智能办公训练营掌握20+热门AI工具,让工作效率飞速提升!已为本号粉丝开通免费领取权限,预计24小时...

2024-05-08 11:40:21 131

原创 Apache Paimon毕业,湖仓架构的未来发展趋势!

北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!恭喜Paimon进入一...

2024-04-30 12:55:51 1056

转载 B站数据治理平台建设

导读Bilibili 是一家数据驱动的公司,数据在员工日常工作中至关重要。B 站内部有60% 的员工日常参与用数和数据决策,数据平台的建设直接影响了他们的工作效率。本文将介绍 B 站大数据开发治理平台产品的设计心得。主要内容包括以下几大部分:主要内容包括以下几大部分:1. B 站的用数场景及数据开发治理平台的概况介绍2. 基于价值体系的数据地图产品建设3.基于抽象配置的数据治理产品建设4.核心...

2024-04-21 11:21:30 158

原创 数据治理要不要在简历中体现?

数据治理要不要在简历中体现?数据治理在简历中要体现什么内容?上周日给知识星球的同学们组织了一次面试分享,邀请了2位拿到不错offer的同学分享了自己的面试和找工作经历。数据治理会出现在什么样的简历中?其中提到了一个很重要的点,数据治理部分在简历中如何体现?在工作和面试中占据什么样的地位?其中分享的同学给出了一个定性的结论,一般超过3-5年的同学,未来你的简历中多多少少都要涉及关于数据治理的内容,这...

2024-04-17 09:30:53 1182

原创 双非本科大厂完全没机会?爆砍40w+年薪案例!

该同学各个方面的背景并不是十分突出,不是名校。但是为找工作做了充足的准备,包括项目中的难点梳理和可能遇到的面试问题,所有工作都做在了前面。目标非常明确,行动力强。愿意花时间去研究训练营中项目用到的技术栈和原理。根据建议去对应的技术模块下整理知识点。这个同学自己总结了一个文档,根据训练营中的项目,以及个人项目总结面试点。包括:业务知识、架构图、项目流程图、项目中的集群数据规模、开发中遇到的技术问题等等。

2024-04-07 12:18:18 1225 3

原创 金三银四还有没有?

今天这个文章是求职系列,我们来谈一下当前的择业环境和每个人要做的准备。我在2021年底曾经发过一篇文章《互联网最坏的时代可能真的来了》,大家有兴趣的可以点进去看一下。事实上这个最坏的时代来的如此迅速,仅仅1年后整个互联网行情急转直下,很多同学根本来不及反应。2023年很多读者找我做过咨询,很不幸的是很多人因为温水煮青蛙时间太长,技术储备、职场技能、人脉储备不足,不得已退出了这个行业。这些案例真实发...

2024-04-07 09:15:33 767

原创 Flink1.19版本生产环境应用解读!

300万字!全网最全大数据学习面试社区等你来!Flink1.19版本更新了,我们按例对最新版本的Flink中的核心能力进行一下解读。我们的重点还是生产环境应用和需要注意的问题,以及对未来的一些判断。本次更新涉及到SQL/Runtime/CheckPoint这三个方面的改进,这也是目前整个引擎开发最重要的几个方向。SQL能力优化SQL能力上的优化需要大家特别关注的三个能力分别是:源表自定义并行度、s...

2024-03-20 20:51:57 1639

转载 Apache Doris 2.1.0 版本发布,复杂查询性能提升 100%!

亲爱的社区小伙伴们,我们很高兴地向大家宣布,在 3 月 8 日我们迎来了 Apache Doris 2.1.0 版本的正式发布,欢迎大家下载使用。在查询性能方面, 2.1 系列版本我们着重提升了开箱盲测性能,力争不做调优的情况下取得较好的性能表现,包含了对复杂 SQL 查询性能的进一步提升,在 TPC-DS 1TB 测试数据集上获得超过 100% 的性能提升,查询性能居于业界领先地位。在数据湖分析...

2024-03-18 17:52:52 479

转载 生产实践|腾讯欧拉平台数据血缘架构

导读本文将介绍腾讯欧拉数据血缘的建设及应用。主要内容包括以下几个部分:1.背景和目标2.项目架构3.模块化建设4.应用场景5.问答环节01背景和目标腾讯欧拉数据平台,是一款基于 DataOps 理念,实现生产即治理的一站式数据平台,主要包括三个子产品:首先是资产工厂,负责整体的数仓建设、数仓模型的开发;第二块是欧拉的治理引擎,负责全链路成本的数据治理;第三块是数据发现,负责元数据的管理...

2024-03-14 09:30:51 275

原创 Paimon新版本核心特性和生产实践解读

最近Apche Paimon发布了最新版本0.7.0,在这个版本中,Paimon对一些新特性进行了增强。Paimon在数据湖领域发展迅速,未来会在整个数据开发领域占有很重要的地位,今天我们来盘点一下当前能力的特点以及在生产环境中的使用情况。Look up join在实时数据开发领域,Look up join一般被认为等效于「维度表关联」。在一些企业的分享中,利用Paimon进行维度表关联,是一个比...

2024-03-09 18:00:46 1265

转载 存算分离|Flink2.0状态存储演进和优化

01引言我们在这个时间点重新聊状态存储这个话题是因为状态存储是流计算的核心。Flink 从 2017 年 VLDB 发表奠基之作介绍状态存储[1]发展至今,Flink 在状态这部分的架构基本并没有太大的变化。但时代是在不断演进和变化的,无论部署模式、存储模式,还是作业负载,都已经发生了翻天覆地的变化。从部署模式看,我们经历了 map-reduce 时代 Cluster 上没有资源隔离的部署,到云...

2024-03-04 18:05:52 282

原创 曾经爆火的「流批一体」现在怎么样了?

2021年和2022年,曾经有一个概念在整个数据开发方向传播,不管是懂和不懂的人,都能扯上一两句。那就是大家耳熟能详的「流批一体」。时至今日,已经很少有人再提起这个话题,这个概念在21、22年很多面试中也会被面试官问到,经常有同学问我这个问题,该怎么回答?今天咱们稍微聊聊这个话题。当时这个概念被很多人提起,大概的意思就是这样:期望一套代码能同时在批处理和流处理中运行。这个概念神奇在哪呢?这个概念最...

2024-02-20 17:32:50 1157 1

转载 Apache Paimon生产环境表模式最佳实践

01前言Apache Paimon 作为数据湖对各种场景有着完整的功能支持,看完这篇文章,你可以了解到 Paimon 有哪几种表模式。对应哪些场景。此文部分内容来自 Paimon 官网:https://paimon.apache.org/docs/master/02概览上图描述了大致所有表模式的配置及能力,在下文中,会逐个简单介绍下。以上的所有表模式在最新版本中已得到生产验证。03主键表主键表是 ...

2024-02-18 09:30:42 742

原创 2024年大数据方向的发展趋势

最近事情较多,因为临近年底,在做总结和后续规划,在这一年中,数据开发方向仍然在快速发展,新概念和新技术层出不穷。并且2023年是各大公司新技术大规模落地的一年,相比2022年及以前空中楼阁似的讨论和不接地气,2023年更加贴近实际,无论公司规模大小,大家都有了一些最佳实践。下面是我观察到的行业内的一些发展和未来方向,视角较小,互相讨论。1. 数据体系迭代加速,离线计算继续保持稳定高效,未来以稳定为...

2024-01-31 19:53:42 2194

转载 面试收藏版|OLAP在滴滴的生产实践优化

导读本次分享题目为StarRocks物化视图在滴滴的实践,由来自滴滴出行的资深开发工程师刘雨飞老师带来经验分享。主要分三部分展开介绍:1.背景介绍:滴滴OLAP的发展历程及最终为什么选择StarRocks2.视图加速实时看板:StarRocks项目物化视图应用分享3.总结与规划:进一步提升的空间和发展方向01背景介绍:滴滴OLAP的发展历程及最终为什么选择StarRocks滴滴的OLAP系统...

2024-01-29 09:30:34 309

转载 技术人必修课:利用金字塔原理高效思考与表达

300万字!全网最全大数据学习面试社区等你来!序言《金字塔原理》一书出自麦肯锡公司第一位女性管理顾问芭芭拉·明托。虽然这本书出版至今已经超过 40 年,但是仍然倍受人推崇,从某公司将其作为公司内部四大名著之一就可见一斑。当然也有很多人持质疑态度,比如秋叶大叔对此书提出了 27 点尖锐的意见,认为它被世人刻意抬高神化,驳斥其一无是处。那这本书到底值不值得读呢?其实每本书的受众和适用范围都不尽相同,既...

2024-01-22 12:43:18 649

原创 Flink/Doris生产环境方案选型的一些思考

各位总监,技术负责人,架构师们大家好。今天的文章有点短,是一些个人思考,仅做记录。以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会遇到的问题。这个问题非常「实在」也很「接地气」,因为这些技术选型问题在生产环境客观存在,更关系稳定性和成本问题。如果大家在面试中被问到了,也是一个很好的问题。问题和思考目前...

2024-01-09 09:30:16 1650

转载 腾讯 PCG 数据治理体系实战

导读本次分享题目为腾讯 PCG 数据治理体系。分为四个章节:1.数据治理的概况和解法2.腾讯 PCG 的元仓建设:专注特征挖掘、构建治理引擎基石3.资产分体系:开放、可持续迭代的资产分体系4. 治理工作台:一站式治理平台01数据治理的概况和解法腾讯 PCG 内容与平台事业群,包括大家所熟知的 QQ、腾讯视频、腾讯新闻、阅文集团,以及腾讯音乐等业务。在没有治理平台之前,数据治理是运动式的,有...

2024-01-05 14:58:33 523

转载 我在阿里做开发的高效打工技巧总结

导读如何高效打工?本文作者站在开发的视角总结了一些打工技巧,包括如何高效开会、如何与人沟通、如何做PM等,希望可以给大家提供一些帮助。前言如果您的工作中完全不需要自己写PRD 、技术方案、测试用例,那么这篇文章除了会浪费您宝贵的15分钟之外,别无益处,可以绕行了。背景很多新入职的工友反馈,大家现在除了编码之外,在厂子里还有很多七七八八的杂活才是工作耗时的大头,比如有些项目里面,沟通&对...

2024-01-02 21:10:54 550

原创 国企和互联网怎么选?

2023年马上就要结束了,天气还是很冷,大家今年的总结做了吗?正好这两天看到另外一个我关注的博主更新了一个自己的年终总结。其中有一些话令人印象深刻。未来对我来说,毫无吸引力。原因很简单,当下已经足够令人清醒、舒适和着迷了。任何形式的过多思考未来,都显得有些逃跑和躲避当下的嫌疑。今天的话题是一个同学的offer选择问题。以下的观点都是基于个人的一些见闻给到球友的一些建议,也希望能给大家一些帮...

2023-12-24 16:00:51 1495

原创 FlinkCDC发展历程和简历中项目描述的思路

Hi,大家好,今天的天气依然很冷。冻成狗了呀!前两天,FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化,从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。这些不是我们今天的重点。今天简单说一下在整个框架发展过程中给我们学习进阶/写简历面试/项目总结上的一些启示。这也是我经常被问到的问题,我应该怎么去描述和总结过去我做过的项目?下面这些...

2023-12-20 20:34:49 1454

转载 Apache Paimon核心原理和Flink应用进阶

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章,你最好收藏一波。1.1 简介Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink ...

2023-12-08 09:30:32 1254

转载 大数据指标中台构建核心技术解析

导读本文将分享网易数帆在指标中台构建方面的实践。主要围绕以下四个方面展开:1.网易数帆大数据产品介绍2.网易数帆指标中台3.指标中台核心技术解析4.未来规划及展望01网易数帆大数据产品介绍1.网易数据分析的发展历史网易自 2006 年开始使用大数据技术组件,如分布式数据库、分布式文件系统、分布式搜索引擎,支撑了网易互联网 2.0 时代的产品。自 2009 年开始基于 Hadoop 构建...

2023-12-05 09:40:28 1231

转载 Flink + Paimon 数据 CDC 入湖最佳实践

前言Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入湖,看完这篇文章,你可以了解到:为什么从 CDC 入 Hive 迁移到 Paimon?CDC 入 Paimon 怎么样做到成本最低?Paimon 对比 Hudi 有什么性能优势?Paimon 从 CDC 入湖场景出发,希望提供给你简单、低成本、低延时的一键入湖。本文基于 Paimo...

2023-11-28 09:30:36 1650

原创 生产环境面试问题,指标类问题。面试官知识盲区,让他回家等消息!

今天说说指标类问题你在面试中会被问到的问题。我们抛开指标开发涉及到的技术点不谈,聊一下更偏重实际业务背景,二面及以上面试官关注的宏观和问题。这问题答得好,让面试官回家等消息,答得不好,你回家等消息。在实际工作中,因为业务本身逻辑复杂,迭代迅速,指标会越来愈多。指标之间也会互相影响,所以两大类问题摆在大家面前:第一,你怎么处理爆炸增长的指标数量问题第二,如何进行指标的异常、归因分析第一个问题很简单,...

2023-11-22 09:46:00 1778

原创 生产环境中的面试问题,实时链路中的Kafka数据发现某字段值错误,怎么办?

大家好呀,今天分享的是一个生产环境中遇到的问题。也是群友遇到的一个面试问题。原问题是:早晨8点之后发现kafka的record中某个字段的值出现了错误,现在已经10点了,需要对kafka进行数据订正,怎么样定位和解决这个问题,达到最快响应和最小影响。这个问题是一个很「大」的问题,我们挑重点的说。首先,我们在做数据开发的过程中涉及到一些基本要素:时效性保障、质量保障、稳定性保障,此外还有敏捷性、可管...

2023-11-13 09:30:48 1372

转载 全网独一份!GPT+AI大模型资源,数据人请低调使用!

随着ChatGPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘AI大模型人才!作为普通程序员,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑程序员核心竞争力(不限年龄!不限...

2023-11-11 12:01:43 987

原创 211硕士Java实习全挂!不想卷后端了,大数据方向想快速入门找实习,该怎么做?

今天给大家分享的是一个球友的提问,如果你也正好是应届生再找实习,那么也可以照着这个方向去学习。问题是这样的:某211学校。Java后端学了大概半年时间,前段时间找日常实习,海投一些大厂,简历全挂!只有滴滴约面,但是二面挂了!我算法题大概250题左右,熟悉java八股文。不想卷java后端开发了,现在我想转大数据方向,想快点找个日常实习。现在比较迷茫,不知道大厂对大数据日常实习的要求!包括技术栈,S...

2023-11-10 09:30:12 1061

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除