自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1908)
  • 收藏
  • 关注

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 700

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipe...

2021-06-15 09:00:00 712

原创 数仓建模方法论

1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。

2021-06-12 20:12:51 2052 1

转载 那些被问懵逼的数仓面试题

数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操...

2020-12-16 08:34:00 832

转载 8种ETL算法模型汇总大全!看完你就全明白了

摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加...

2020-12-07 17:55:22 2411

原创 浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...

2020-12-06 16:08:14 1348 5

转载 面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 606

原创 面试|spark刷爆磁盘与java弱引用的关系

一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...

2020-11-11 08:35:34 281

转载 Hbase Bulkload 原理|面试必备

当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1136

原创 漫画|讲解一下如何写简历&项目

star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...

2020-11-06 08:19:00 834

原创 漫画面试回答kafka为何如此之快|满分

一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2589 11

转载 大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...

2020-10-25 09:38:32 3016 1

原创 漫画讲解Kafka高效的存储设计|面试

在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...

2020-10-22 08:25:00 732

原创 漫画全面解释Spark企业调优点

一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 790 4

转载 月薪已炒到15w?真心建议数据人冲一冲新兴领域,工资高前景好

ESG真的火了!“企业ESG部门经理月薪10-15万,应届生起薪2-4万,已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注?ESG绝对能排在前三。作为行业新风口,ESG几乎席卷和覆盖了各大领域!这股风潮正在全行业悄然蔓延,大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人,到底有多香?各大企业要想可持续发展、ESG作为投资的重要...

2023-12-06 11:00:22 17

转载 FlinkCEP - Flink的复杂事件处理

FlinkCEP - Flink的复杂事件处理FlinkCEP是在Flink上层实现的复杂事件处理库。 它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。本页讲述了Flink CEP中可用的API,我们首先讲述[模式API],它可以让你指定想在数据流中检测的模式,然后讲述如何[检测匹配的事件序列并进行处理]。 再然后我们讲述Flink在按照事件时间[处理迟到事件]时的假设...

2023-12-05 08:00:33 14

转载 万字Spark性能优化宝典(收藏版)

导读:发现一篇好文,分享给大家。全文分为四个部分,基本涵盖了所有Spark优化的点,面试和实际工作中必备。全文较长,建议收藏后PC端查看或工作中问题troubleshooting。《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优篇》《Spark性能优化:shuffle调优篇》Spark性能优化:开发调优篇在大数据计算领域,Spark已经成为了越...

2023-12-04 08:00:27 13

转载 Hive/Spark/Flink增量查询Hudi最佳实践一网打尽

、一、Hive增量查询Hudi表同步Hive我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。例如,如果table name = hudi_tbl,我们得到hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读优化视图,从而提供了纯列式数据hudi_tb...

2023-12-02 22:31:10 24

转载 一文讲透如何做数据分析和指标体系

本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘,可以看我的历史文章,有很多代码相关的内容。从一个小白接触支付业务,毫无章法胡乱看数据,到开始有点门道看表层数据,再到此篇文章输出的成体系的数据分析系列篇章,前后经历了2年多时间。此篇文章内容皆为当前阶段认知,后续肯定会持续做迭代更新。01为什么需要数据分析数据分析的重要性不言而喻,没有数据,就是感性呀。你说你...

2023-11-30 21:44:07 34

转载 数据治理:数据血缘关系!

数据血缘是元数据产品的核心能力,但数据血缘是典型的看起来很美好但用起来门槛很高的技术,只要你采买过元数据产品就知道了。这篇文章对数据血缘的特征、价值、用途和方法做了系统阐述:1、特征:归属性、多源性、可追溯及层次性2、价值:数据价值评估、数据质量评估及数据生命周期管理3、用途:合规需求、影响分析和质量问题分析、数据安全和隐私、迁移项目及自服务分析4、方法:自动解析、系统跟踪、机器学习方法及手工的收...

2023-11-29 23:01:53 18

转载 用户画像的原理、模型和应用

全文共 4078个字,建议阅读9分钟在数字时代,用户数据的规模和复杂性不断增加,对企业而言,了解和理解用户成为关键的竞争优势。用户画像作为一种有效的用户分析工具,能够帮助企业深入洞察用户需求、行为和特征。本文将介绍用户画像的基础概念、原理、方法论(模型)以及在实际应用中的价值。01 用户画像的基础概念用户画像是根据用户的个人信息、兴趣爱好、行为习惯等多维度数据进行分析和描述,形成的用户特征模...

2023-11-22 20:02:35 27

转载 基于Lambda架构的实时电商数仓建设经验分享

导读文章分享了某电商平台离线数仓、实时数仓、数据应用等方面的实践经验。全文目录:1. 背景介绍2. 技术选型3. 电商离线数仓4. 电商实时数仓5. 电商数据应用6. 后续演进和流批一体探索01背景介绍电商是移动互联网时代最重要的业务形式之一,目前主流的业务形态是B2C。在这个群雄逐鹿的年代,除了淘宝、京东、拼多多等头部电商以外,还活跃着众多的中小规模电商平台。笔者所在公司的电商APP就是其中一...

2023-11-15 09:01:38 36

转载 详解数据仓库之拉链表(原理、设计以及在Hive中的实现)

最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!近几天也会安排朋友圈点赞赠书活动(ง•̀_•́)ง0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个...

2023-11-12 13:25:57 43

转载 基于阿里云 Flink+Hologres 搭建实时数仓

背景信息随着社会数字化发展,企业对数据时效性的需求越来越强烈。除传统的面向海量数据加工场景设计的离线场景外,大量业务需要解决面向实时加工、实时存储、实时分析的实时场景问题。传统离线数仓搭建的方法论比较明确,通过定时调度实现数仓分层(ODS->DWD->DWS->ADS);但对于实时数仓的搭建,目前缺乏明确的方法体系。基于 Streaming Warehouse 理念,实现数仓分层...

2023-11-11 09:05:56 88

转载 一文学完所有的Hive SQL(两万字最全详解)

Hive SQL 大全本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类:一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode ...

2023-11-07 09:01:13 104

转载 最容易出错的 Hive Sql 详解

前言在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。正文开始1. decimalhive 除了支持...

2023-10-31 22:09:37 53

转载 字节基于 Hudi 的批流一体存储实践

01背景与挑战首先来介绍一下相关背景。传统数仓存在实时和离线两条链路,来满足业务对于时效数据的时效性和数据量的不同需求。离线会维护历史的全量视图,实时会维护增量视图,最后在服务层去进行数据的汇总,从而支持后续的在线的serving、 OLAP 查询以及看板的应用等等。因为处理场景的差异,在实时和离线数仓的具体实现上,依赖的底层存储计算引擎基本上是完全隔离的,实时依赖的主要是以 Flink 为代表...

2023-10-19 09:37:24 52

转载 学会 arthas,让你 3 年经验掌握 5 年功力!

作者:dan_seek链接:https://juejin.cn/post/7114540497187635208# 简介Arthas 是Alibaba开源的Java诊断工具,动态跟踪Java代码;实时监控JVM状态,可以在不中断程序执行的情况下轻松完成JVM相关问题排查工作 。支持JDK 6+,支持Linux/Mac/Windows。这个工具真的很好用,而且入门超简单,十分推荐。# 使用场景这个类...

2023-10-16 10:06:23 62

转载 美团增量数仓建设新进展

01美团增量数仓的建设背景美团数仓架构的诞生是基于这样的技术假设:“随着业务数据越积越多,增量数据 / 存量数据 的比值呈下降趋势,采用增量计算模式性价比更高。”当然也与底层技术的发展有很强的相关性,Flink、Hudi 等具备增量计算、更新能力的技术框架,为增量数仓落地的提供了必要条件。从时间线上看,增量数仓架构的演进过程可大致划分为三个阶段:第一个阶段,2019 到 2020 年。这个阶段,业...

2023-10-14 09:25:48 54

转载 基于 Flink CDC 高效构建入湖通道

01Flink CDC 核心技术解析Flink CDC 是基于数据库日志的 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。 如上图所示,数据库表里有历史的全量数据和实时写入的增量数据,Flink CDC 框架的能力就是在保证 Exa...

2023-10-13 08:48:35 36

转载 业务思考:如何利用数据分析讲好业务?

内容主题就是“如何利用数据分析讲好业务故事“,具体又分为三部分,如何理解业务要素及其与数据、分析的关系,如何把业务需求转换为标准问题,如何借助于交互实现探索分析。01了解业务,及其与数据、分析的层次关系每当我进入到一个新的行业,我都用一套标准的方法理解业务,并进而理解数据表和分析需求。1、「业务-数据-分析框架」业务理解是由三个部分构成的:业务对象、业务过程,业务规则。业务对象是在交易过程中能够看...

2023-10-11 10:26:06 55

转载 基于元数据构建智能化治理平台建设实践

‍导读本文将分享网易云音乐基于元数据构建智能化治理平台的建设实践。主要包括四个部分:1.音乐数据平台的规模和现状2.治理平台的建设背景和目标3.治理平台的建设和落地4.治理平台的未来规划分享嘉宾|汪磊网易云音乐 数据平台开发专家编辑整理|罗庆新出品社区|DataFun01音乐数据平台的规模和现状我们通过数据平台整合技术和业务,对业务赋能,使用户能够高效、稳定、安全、经济和准确地使用...

2023-10-10 10:03:12 42

转载 芒果 TV 基于 Flink 的实时数仓建设实践与演进

01芒果 TV 实时数仓建设历程芒果 TV 实时数仓的建设共分为三个阶段,14-19 年为第一阶段,技术选型采用 Storm/Flink Java+Spark SQL。20-22 年上半年为第二阶段,技术选型采用 Flink SQL+Spark SQL 。22 年下半年-至今为第三阶段,技术选型采用 Flink SQL+StarRocks。每一次升级都是在原有基础上进行迭代,以求更全面的功能,更快...

2023-10-09 09:41:07 36

转载 用户增长常见分析模型

01什么是用户增长 用户增长基本上会涉及生意场上的各行各业,你开个店面希望有更多的客户光顾,你做了个APP希望有更多的用户经常使用,你搭建了个电商平台希望有更多的人下单买东西。 用户增长,即以提升用户LTV为目的(含获取、激活、留存、变现、推荐等环节)所进行的一切增长活动。受互联网红利退潮影响,越来越多的企业感到获客不易,所以用户增长是确保产品健康发展下去的永恒话题。但是...

2023-10-02 18:13:47 85

原创 大数据圈还能混吗?

工作这么多年,浪尖一直从事大数据相关的架构设计,计算框架的二次开发,尤其是实时计算框架,最近两年在搞实时数仓和数据分析,浪尖算是跟着大数据生态成长起来的老人了。最近也跟一些猎头聊过现今招聘现状,结论是怎一个惨字了得。目前,大数据能做的或者还在折腾的方向基本就是:1.数仓建设,大都是是 lamda 架构,也即是离线+实时数仓。这也是 lamda 架构演进的第二阶段。2.通过湖仓一体,来实现离线和实时...

2023-09-30 06:49:37 59

转载 幸福里基于 Flink & Paimon 的流式数仓实践

摘要:本文整理自字节跳动基础架构工程师李国君,在 Streaming Lakehouse Meetup 的分享。幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未...

2023-09-26 00:17:50 63

转载 长文详解HiveSQL执行计划

本文目录:一、前言二、SQL的执行计划2.1 explain 的用法2.2 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段2.3 explain dependency的用法 案例一:识别看似等价的代码 案例二:识别SQL读取数据范围的差别2...

2023-08-31 23:43:42 2992

转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

正 文0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive...

2023-08-02 21:23:00 186

转载 微信安全基于 Flink 实时特征开发平台实践

01背景介绍微信是国内较庞大而复杂的业务,平台上包括通讯、社交、短视频、支付、小程序、企业微信等等大的业务,小的业务也有上千个。逐利的黑灰产哪里流量多、能赚钱,他们就跑到哪里去,所以微信会被业务黑灰产给盯上,这时如果业务安全、风控没有做好,会让公司和用户蒙受很大的损失。而我们风控团队的职责就是与这些黑灰产进行对抗。在对抗过程中,我们面对了很多挑战,主要有以下三点:需要面对百万规模从业人员的黑产,而...

2023-07-25 22:02:12 85

转载 fastjson 很好,但不适合我!

Java指南:https://java-family.cnFastJson 在国内的热度还是挺高的,受到了很多开发者的喜欢。不过,我自己倒没有在项目中用过。我记得刚工作那会新做的一个项目有明确规定禁止使用 FastJson。昨天看到一篇关于 FastJson 的文章,这位朋友分享了自己在使用 FastJson 遇到的一些问题。原文地址:https://juejin.cn/post/72158868...

2023-07-25 22:02:12 754

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除