浪尖聊大数据-浪尖-CSDN博客

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源？Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 968

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换（例如map和filter）返回的RDD，会延续父RDD的分区信息，以pipe...

2021-06-15 09:00:00 861

1.数仓建模的理由数据建模的主要目的是降低成本，提高数据的利用效率。尤其是大数据时代的到来，数据的多样化，巨量，更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法，更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点，一般我们会从以下面四点考虑：性能：能够快速查询所需的数据，减少数据I/O的吞吐。成本：减少不必要的数据冗余，实现计算结果的复用，降低大数据系统中的存储成本和计算成本。效率：改善用使用数据的体验，提高使用效率。

2021-06-12 20:12:51 2578 1

转载那些被问懵逼的数仓面试题

数仓构建：1). 前期业务调研需求调研数据调研技术选型2). 提炼业务模型，总线矩阵，划分主题域；3). 定制规范命名规范、开发规范、流程规范4). 数仓架构分层：一般分为操...

2020-12-16 08:34:00 979

转载 8种ETL算法模型汇总大全！看完你就全明白了

摘要：ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加...

2020-12-07 17:55:22 2974

原创浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊，说做大数据久了比较迷茫，今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办！一现状目前的迷茫最主要原因是行业趋势所致，了解一下大数据行业的现状：对于整个...

2020-12-06 16:08:14 1502 5

转载面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 770

原创面试｜spark刷爆磁盘与java弱引用的关系

一引用基本概念如下面，定义两个变量num，str，存储模型大致如下图：int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8；变量str...

2020-11-11 08:35:34 353

转载 Hbase Bulkload 原理｜面试必备

当需要大批量的向Hbase导入数据时，我们可以使用Hbase Bulkload的方式，这种方式是先生成Hbase的底层存储文件 HFile，然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1341

原创漫画｜讲解一下如何写简历&项目

star法写项目的案例：深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20，在深圳...

2020-11-06 08:19:00 954

原创漫画面试回答kafka为何如此之快｜满分

一磁盘读写原理磁盘的结构图：当需要从磁盘读取数据时，要确定读的数据在哪个磁道，哪个扇区：首先必须找到柱面，即磁头需要移动对准相应磁道，这个过程叫做寻道，所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2685 11

转载大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展...

2020-10-25 09:38:32 3272 1

原创漫画讲解Kafka高效的存储设计｜面试

在开始讲解之前，先带着大家回忆一下kafka一些名词概念：a. Broker：提供数据存储和数据读写服务实例，一个Kafka节点就是一个broker，多个broker可以组成一个Kafk...

2020-10-22 08:25:00 805

原创漫画全面解释Spark企业调优点

一：资源配置一般企业中，物理机器的cpu:内存基本上都是1:4+，比如机器24core，一般有128GB及以上内存；48core，一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 847 4

转载 Flink+StarRocks 实时数据分析新范式

01极速数据分析统一 OLAP 分析的趋势，以及 StarRocks 极速查询分析的核心能力。计算机科学里所有难题，都能通过加中间层的方式来解决，但是不能加的东西太多。回想 Hadoop 生态演变的过程，先有了分布式存储，解决了海量数据如何用廉价的设备，来存储的问题。又有 MapReduce 帮助我们慢悠悠的解决了，分布式处理的问题。为了让只会写 SQL 的分析师，能够专注于业务，不用担心 Jav...

2024-11-05 11:12:38 36

转载 Apache Spark 4.0 中的自适应查询执行（AQE）：查询优化的革命

Apache Spark 4.0 中的自适应查询执行（AQE）：查询优化的革命随着大数据处理的不断进步，对更智能、更高效的查询优化的需求从未如此迫切。自适应查询执行（AQE）是 Apache Spark 3.0 中引入的一项突破性功能，并在 Spark 4.0 中得到了进一步优化。AQE 允许 Spark 通过实时优化查询性能，适应大数据的动态和不可预测性。这篇博客深入探讨了 AQE 是什么、其关...

2024-10-28 10:51:58 63

转载 Flink CDC + OceanBase 全增量一体化数据集成方案

摘要：本文整理自 OceanBase 技术专家王赫（川粉）在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括：OceanBase 介绍Flink CDC OceanBase Connector 实现原理Flink CDC + OceanBase 应用场景Flink CDC OceanBase Connector 未来展望Tips：点击「阅读原文」查看原文视频 & ...

2024-10-27 11:47:06 33

转载 16张图万字对比ClickHouse、Kudu和Hbase全面（高级、收藏）

前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据，地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件，它海量的存储能力，优秀的随机读写能力，能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。Apache Kudu是Clouder...

2024-10-18 22:59:40 46

转载详解大厂实时数仓建设（好文收藏）

来源：五分钟学大数据一、实时数仓建设背景1. 实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切，需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1，调度频率以天为单位，无法支撑实时场景的数据需求。即使能将调度频率设置成小时，也只能解决部分时效性要求不高的场景，对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。2. 实时技术...

2024-10-11 23:01:48 130

转载数据治理之元数据管理的利器——Atlas入门实战宝典（万字长文）

来源：浪尖聊大数据随着数字化转型的工作推进，数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具，Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富，也不够详细。所以整理了这份文档供大家学习使用。本文档基于Atlas2.1.0版本，整理自部分官网内容，各种博客及实践过程。文章较长，建议收藏。本文档共分为8个部分，层级结构如下图所示。文档版权为公众号...

2024-10-06 07:52:35 103

转载如何构建好的用户画像平台？

导读画像平台是一个在中台侧应用非常广，在业务侧依赖很重的产品。本文将分享快看在建设画像平台方面的一些经验。分享将会围绕下面四个方面展开：1. 画像平台产品架构2. 快看的建设经验3. 画像平台应用案例4. 总结和展望01画像平台产品架构上图是基于快看数据中台画像平台产品的理解和定位整理出来的产品架构。画像平台首先是服务于业务的，运营可以基于画像平台对单个用户或者人群包做画像的洞察，平台服务的业务...

2024-09-27 08:01:14 338

转载调优宝典 | SparkSQL性能优化10大技巧与实战指南，附案例

Spark SQL 性能优化实战指南Spark SQL 是 Apache Spark 中用于处理结构化数据的强大工具。然而，在大规模数据处理场景下，Spark SQL 可能会遇到性能瓶颈。本文将介绍一些常见的性能问题以及如何通过 SQL 代码案例来解决这些问题与十大技巧。万字详解，内容较长，建议先收藏！一、数据倾斜数据倾斜是指某些分区或键值包含的数据量远大于其他分区或键值，这会导致部分任务处理的数...

2024-09-16 10:51:08 168

转载数据指标体系搭建与行业实践

数据指标体系是业务分析的基础，可用于快速定位异常、监测运营效果和评价业务健康度。搭建指标体系的一般流程包括明确业务目标和需求、定义指标维度和度量方法、建立数据采集和处理机制、设计数据存储和查询方案以及实现数据可视化和报告。不同行业的数据指标体系有些共通点，但也存在差异，需要根据具体行业和业务场景进行定制化设计。本文将介绍数据指标体系的搭建流程，并针对电商、社区和金融APP三个行业进行指标体系的搭建...

2024-08-31 11:03:20 343

转载 Apache Doris设计思想与应用场景介绍

MPP ( Massively Parallel Processing ) MPP ( Massively Parallel Processing )，即大规模并行处理，在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非...

2024-08-29 08:37:07 624

转载取代数据岗，国内又一新兴岗位在崛起！这才是数据人未来5年最好的就业方向！...

随着GPT大热“AI大模型”无疑是最火爆的话题！Google、百度、腾讯等等巨头互联网公司，无不在布局人工智能技术和市场，甚至还有60k*16的高薪，挖掘会使用 AI 的数据人才！作为数据人，如何不被时代抛弃，享受AI技术带来的红利？！????知乎知学堂特发起：行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道！速进！AI大模型-重塑数据人核心竞争力（不限年龄！不限岗...

2024-08-26 09:01:07 131

转载数据治理体系全面指南

全文共4925个字，建议阅读10分钟‍数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路，最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系？企业数据治理过程需要注意哪些问题？总体而言，不能一口一个胖子，路要一步一步地走。下面我将结合企业级数据治理经验，详细介绍从0到1搭建数据治理体系全流程，帮你梳理数据治理的主要内容以及过程中会...

2024-08-16 22:15:12 160

转载基于Hive数据仓库的标签画像实战！

来源：凹凸数据全文共3780个字，建议阅读需8分钟Hive数据仓库建立用户画像首先需要建立数据仓库，用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具，依赖于HDFS存储数据，提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库，存储标签和用户特征库等相关数据。"数据仓库之父" W.H.Inmon 在《Building the Data Wareh...

2024-08-03 12:52:35 133

转载万字长文详解HiveSQL执行计划

本文目录：一、前言二、SQL的执行计划2.1 explain 的用法2.2 explain 的使用场景案例一：join 语句会过滤 null 的值吗？案例二：group by 分组语句会进行排序吗？案例三：哪条sql执行效率高呢？案例四：定位产生数据倾斜的代码段2.3 explain dependency的用法案例一：识别看似等价的代码案例二：识别SQL读取数据范围的差别2...

2024-06-25 20:57:40 170

转载 Flink⼤状态作业调优实践指南：Flink SQL 作业篇

摘要：本文整理自俞航翔、陈婧敏、黄鹏程老师所撰写的大状态作业调优实践指南。由于内容丰富，本文分享 Flink SQL 作业大状态导致反压的调优原理与方法，主要分为以下三个部分：状态算子的产生问题诊断方法调优方法前篇：Flink⼤状态作业调优实践指南：Datastream 作业篇05Flink SQL 作业大状态导致反压的调优原理与方法作为一种特定领域语言，SQL 的设计初衷是隐藏底层数据处理的复杂...

2024-06-12 09:01:34 176

转载 Flink⼤状态作业调优实践指南：Datastream 作业篇

01Flink 状态（State）简介Apache Flink 是一个开源的流处理框架，用于处理和分析实时数据流。在 Flink 中，状态管理是流处理应用的核心概念之一，它允许算子（operators）在处理事件时保持和操作状态信息。在 Flink 中，状态可以被视为算子的“记忆”，它使得算子能够在处理无界流数据时保持对历史数据的跟踪。状态可以是简单的键值对，也可以是更复杂的数据结构，如列表、集合...

2024-06-11 10:13:40 127

转载收藏，一文了解OLAP数仓

一、有哪些类型的OLAP数仓？1.按数据量划分对一件事物或一个东西基于不同角度，可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量，如下图所示：本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓，Cloudera的Impala、Facebook的Presto和Pivotal的GreenPlum均属于这类系统；如果超过百亿级别数据量，那么一般选择离线数...

2024-06-06 09:17:15 156

转载如何解决代码中if…else 过多的问题

作者：艾瑞克·邵链接：https://www.cnblogs.com/eric-shao/p/10115577.html前言if...else 是所有高级编程语言都有的必备功能。但现实中的代码往往存在着过多的 if...else。虽然 if...else 是必须的，但滥用 if...else 会对代码的可读性、可维护性造成很大伤害，进而危害到整个软件系统。现在软件开发领域出现了很多新技术、新概念...

2024-06-04 17:35:43 156

转载 Flink+Paimon+Hologres 构建实时湖仓数据分析

摘要：本文整理自阿里云高级专家喻良，在 Flink Forward Asia 2023 主会场的分享。本次分享将为大家介绍 Flink + Paimon + Hologres 构建湖仓一体数据分析。Hologres 是阿里云自研一站式实时数仓产品，通过和 Paimon 的深度合作，提供分钟级/秒级时效性+秒级 OLAP 性能，实现流式湖仓的分层建模，降低开发运维成本，打破数据孤岛，实现业务洞察。内...

2024-05-26 22:33:11 175

原创 Hadoop1X，Hadoop2X和hadoop3X有很大的区别么？

Hadoop的演进从Hadoop 1到Hadoop 3主要是为了提供更高的效率、更好的资源管理、更高的可靠性以及对更多数据处理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之间的主要区别和演进的原因：Hadoop 1特点：主要包括两大核心组件：HDFS（Hadoop Distributed File System）和MapReduce。Hadoop 1的资源管理和作...

2024-04-20 18:58:24 606

转载基于Kafka的六种事件驱动的微服务架构模式

在过去的一年里，我一直是负责Wix的事件驱动消息基础设施（基于Kafka之上）的数据流团队的一员。该基础设施被 1400 多个微服务使用。在此期间，我已经实现或目睹了事件驱动消息传递设计的几个关键模式的实现，这些模式有助于创建一个健壮的分布式系统，可以轻松处理不断增长的流量和存储需求。一、消费与投射…那些非常受欢迎的服务会成为瓶颈当您遇到存储大型领域对象的“流行”数据的瓶颈时，此模式可以提供帮助。...

2024-04-16 12:28:24 143

转载 SQL优化这5个极简法则，直接让查询原地起飞！

SQL 作为关系型数据库的标准语言，是 IT 从业人员必不可少的技能之一。SQL 本身并不难学，编写查询语句也很容易，但是想要编写出能够高效运行的查询语句却有一定的难度。查询优化是一个复杂的工程，涉及从硬件到参数配置、不同数据库的解析器、优化器实现、SQL 语句的执行顺序、索引以及统计信息的采集等，甚至应用程序和系统的整体架构。本文介绍几个关键法则，可以帮助我们编写高效的 SQL 查询；尤其是对于...

2024-04-15 09:01:12 137

转载规则引擎与机器学习比较与结合

机器学习正在席卷全球，许多使用规则引擎做出业务决策的公司开始利用它。然而，这两种技术针对不同的问题。规则引擎用于执行需要 100% 精度的离散逻辑。另一方面，机器学习专注于获取大量输入并尝试预测结果。了解这两种技术的优势非常重要，这样您才能确定问题的正确解决方案。在某些情况下，不是其中之一，而是如何将两者结合使用以获得最大价值。业务逻辑、计算和工作流程让我们首先从了解业务逻辑开始。多年来，我一直在...

2024-04-15 09:01:12 157

转载企业级离线数仓分层设计和演化之路

分享人：金澜涛，资深大数据专家，前eBay OLAP组技术Leader

2024-04-14 08:34:45 95

转载揭秘数据指标设计的奥妙！

就像人走路的时候需要看到前方的道路，产品和运营在做决策前也需要睁开“双眼”。左眼，是数据；右眼，是用研。通过线上数据反馈，我们可以准确地发现问题，找到规律，求证猜想，平息主观之争，为产品改进和运营优化的制定和实施提供明确的方向。一、互联网公司数据职能设置互联网公司普遍十分重视数据，数据部门职能设置却各不相同。大多会设置独立的BI部门（如携程、京东），有些（如亚马逊）也会把数据人员分散在各个团队。数...

2024-04-11 09:02:41 98

转载 JMH + Arthas，性能监控的神器

问题描述为了能够让我后面的实例能够贯穿这两个工具的使用，我首先简单描述下我们在开发中遇到的实际的性能问题。然后再引出这两个性能工具的实际使用，看我们如何使用这两个工具成功定位到性能瓶颈的。问题如下：为了能够支持丢失率，我们将原先log4j2 的Async+自定义Appender的方式进行了修正，把异步的逻辑放到了自己改版后的Appender中。但我们发现修改后日志性能要比之前Async+自定义Ap...

2024-04-11 09:02:41 71

空空如也

空空如也