自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1971)
  • 收藏
  • 关注

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 895

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipe...

2021-06-15 09:00:00 828

原创 数仓建模方法论

1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。

2021-06-12 20:12:51 2458 1

转载 那些被问懵逼的数仓面试题

数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操...

2020-12-16 08:34:00 933

转载 8种ETL算法模型汇总大全!看完你就全明白了

摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加...

2020-12-07 17:55:22 2853

原创 浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...

2020-12-06 16:08:14 1434 5

转载 面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 704

原创 面试|spark刷爆磁盘与java弱引用的关系

一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...

2020-11-11 08:35:34 329

转载 Hbase Bulkload 原理|面试必备

当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1305

原创 漫画|讲解一下如何写简历&项目

star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...

2020-11-06 08:19:00 918

原创 漫画面试回答kafka为何如此之快|满分

一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2664 11

转载 大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...

2020-10-25 09:38:32 3214 1

原创 漫画讲解Kafka高效的存储设计|面试

在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...

2020-10-22 08:25:00 782

原创 漫画全面解释Spark企业调优点

一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 827 4

转载 数据治理体系全面指南

全文共4925个字,建议阅读10分钟‍数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会...

2024-08-16 22:15:12 27

转载 基于Hive数据仓库的标签画像实战!

来源:凹凸数据全文共3780个字,建议阅读需8分钟Hive数据仓库建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。"数据仓库之父" W.H.Inmon 在《Building the Data Wareh...

2024-08-03 12:52:35 45

转载 万字长文详解HiveSQL执行计划

本文目录:一、前言二、SQL的执行计划2.1 explain 的用法2.2 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段2.3 explain dependency的用法 案例一:识别看似等价的代码 案例二:识别SQL读取数据范围的差别2...

2024-06-25 20:57:40 112

转载 Flink⼤状态作业调优实践指南:Flink SQL 作业篇

摘要:本文整理自俞航翔、陈婧敏、黄鹏程老师所撰写的大状态作业调优实践指南。由于内容丰富,本文分享 Flink SQL 作业大状态导致反压的调优原理与方法,主要分为以下三个部分:状态算子的产生问题诊断方法调优方法前篇:Flink⼤状态作业调优实践指南:Datastream 作业篇05Flink SQL 作业大状态导致反压的调优原理与方法作为一种特定领域语言,SQL 的设计初衷是隐藏底层数据处理的复杂...

2024-06-12 09:01:34 112

转载 Flink⼤状态作业调优实践指南:Datastream 作业篇

01Flink 状态(State)简介Apache Flink 是一个开源的流处理框架,用于处理和分析实时数据流。在 Flink 中,状态管理是流处理应用的核心概念之一,它允许算子(operators)在处理事件时保持和操作状态信息。在 Flink 中,状态可以被视为算子的“记忆”,它使得算子能够在处理无界流数据时保持对历史数据的跟踪。状态可以是简单的键值对,也可以是更复杂的数据结构,如列表、集合...

2024-06-11 10:13:40 97

转载 收藏,一文了解OLAP数仓

一、有哪些类型的OLAP数仓?1.按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示:本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓,Cloudera的Impala、Facebook的Presto和Pivotal的GreenPlum均属于这类系统;如果超过百亿级别数据量,那么一般选择离线数...

2024-06-06 09:17:15 90

转载 如何解决代码中if…else 过多的问题

作者:艾瑞克·邵链接:https://www.cnblogs.com/eric-shao/p/10115577.html前言if...else 是所有高级编程语言都有的必备功能。但现实中的代码往往存在着过多的 if...else。虽然 if...else 是必须的,但滥用 if...else 会对代码的可读性、可维护性造成很大伤害,进而危害到整个软件系统。现在软件开发领域出现了很多新技术、新概念...

2024-06-04 17:35:43 76

转载 Flink+Paimon+Hologres 构建实时湖仓数据分析

摘要:本文整理自阿里云高级专家喻良,在 Flink Forward Asia 2023 主会场的分享。本次分享将为大家介绍 Flink + Paimon + Hologres 构建湖仓一体数据分析。Hologres 是阿里云自研一站式实时数仓产品,通过和 Paimon 的深度合作,提供分钟级/秒级时效性+秒级 OLAP 性能,实现流式湖仓的分层建模,降低开发运维成本,打破数据孤岛,实现业务洞察。内...

2024-05-26 22:33:11 91

原创 Hadoop1X,Hadoop2X和hadoop3X有很大的区别么?

Hadoop的演进从Hadoop 1到Hadoop 3主要是为了提供更高的效率、更好的资源管理、更高的可靠性以及对更多数据处理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之间的主要区别和演进的原因:Hadoop 1特点:主要包括两大核心组件:HDFS(Hadoop Distributed File System)和MapReduce。Hadoop 1的资源管理和作...

2024-04-20 18:58:24 550

转载 基于Kafka的六种事件驱动的微服务架构模式

在过去的一年里,我一直是负责Wix的事件驱动消息基础设施(基于Kafka之上)的数据流团队的一员。该基础设施被 1400 多个微服务使用。在此期间,我已经实现或目睹了事件驱动消息传递设计的几个关键模式的实现,这些模式有助于创建一个健壮的分布式系统,可以轻松处理不断增长的流量和存储需求。一、消费与投射…那些非常受欢迎的服务会成为瓶颈当您遇到存储大型领域对象的“流行”数据的瓶颈时,此模式可以提供帮助。...

2024-04-16 12:28:24 88

转载 SQL优化这5个极简法则,直接让查询原地起飞!

SQL 作为关系型数据库的标准语言,是 IT 从业人员必不可少的技能之一。SQL 本身并不难学,编写查询语句也很容易,但是想要编写出能够高效运行的查询语句却有一定的难度。查询优化是一个复杂的工程,涉及从硬件到参数配置、不同数据库的解析器、优化器实现、SQL 语句的执行顺序、索引以及统计信息的采集等,甚至应用程序和系统的整体架构。本文介绍几个关键法则,可以帮助我们编写高效的 SQL 查询;尤其是对于...

2024-04-15 09:01:12 86

转载 规则引擎与机器学习比较与结合

机器学习正在席卷全球,许多使用规则引擎做出业务决策的公司开始利用它。然而,这两种技术针对不同的问题。规则引擎用于执行需要 100% 精度的离散逻辑。另一方面,机器学习专注于获取大量输入并尝试预测结果。了解这两种技术的优势非常重要,这样您才能确定问题的正确解决方案。在某些情况下,不是其中之一,而是如何将两者结合使用以获得最大价值。业务逻辑、计算和工作流程让我们首先从了解业务逻辑开始。多年来,我一直在...

2024-04-15 09:01:12 89

转载 企业级离线数仓分层设计和演化之路

分享人:金澜涛,资深大数据专家,前eBay OLAP组技术Leader

2024-04-14 08:34:45 57

转载 揭秘数据指标设计的奥妙!

就像人走路的时候需要看到前方的道路,产品和运营在做决策前也需要睁开“双眼”。左眼,是数据;右眼,是用研。通过线上数据反馈,我们可以准确地发现问题,找到规律,求证猜想,平息主观之争,为产品改进和运营优化的制定和实施提供明确的方向。一、互联网公司数据职能设置互联网公司普遍十分重视数据,数据部门职能设置却各不相同。大多会设置独立的BI部门(如携程、京东),有些(如亚马逊)也会把数据人员分散在各个团队。数...

2024-04-11 09:02:41 62

转载 JMH + Arthas,性能监控的神器

问题描述为了能够让我后面的实例能够贯穿这两个工具的使用,我首先简单描述下我们在开发中遇到的实际的性能问题。然后再引出这两个性能工具的实际使用,看我们如何使用这两个工具成功定位到性能瓶颈的。问题如下:为了能够支持丢失率,我们将原先log4j2 的Async+自定义Appender的方式进行了修正,把异步的逻辑放到了自己改版后的Appender中。但我们发现修改后日志性能要比之前Async+自定义Ap...

2024-04-11 09:02:41 39

转载 15张架构图,详解数据中台建设框架!

《DAMA数据管理知识体系指南》对企业的数据管理成熟度定义了6个层级,分别为:0级-无能力、1级-初始或临时级、2级-可重复级、3级-已定义级、4级-已管理级、5级-优化级,级别越高数据管理越成熟。对于前期缺少数据管理经验的企业,在无数据专家或数据顾问公司支撑的情况下,容易导致以下的问题:一、数据架构规划未能长期有效支撑业务发展对企业数据架构缺少系统性梳理与思考,没有规划未来长期有效的业务发展,只...

2024-04-09 09:01:03 450

原创 闭包在Scala中的含义,使用场景和各个场景的代码案例

闭包的含义在 Scala 中,闭包是一种函数,它可以捕获并使用其作用域之外定义的变量。闭包由两部分组成:一个函数,以及该函数引用的外部变量的环境。这意味着即使外部变量的作用域已经结束,闭包依然可以访问和操作这些变量。使用场景延迟执行:闭包可以用来延迟代码的执行,直到需要结果的时候。函数工厂:利用闭包根据参数动态生成特定行为的函数。封装状态:闭包可以封装状态,使得状态在函数调用间保持私有。回调函数:...

2024-04-09 09:01:03 383

转载 Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper

Apache 软件基金会发布了包含许多新特性和改进的 Kafka 3.3.1。这是第一个标志着可以在生产环境中使用KRaft(Kafka Raft)共识协议的版本。在几年的开发过程中,它先是在 Kafka 2.8 早期访问版本中发布,然后又在 Kafka 3.0 预览版本中发布。KRaft 是一种共识协议,可以直接在 Kafka 中管理元数据。元数据的管理被整合到了Kafka当中,而不需要使用像Z...

2024-04-08 08:02:39 129

原创 hive面试必备题

1. Hadoop中两个大表实现JOIN的操作在Hadoop和Hive中处理两个大表的JOIN操作通常涉及以下策略:利用Hive分区:通过在创建表时定义分区策略,可以在执行JOIN时只处理相关的分区数据,减少需要处理的数据量。优化HQL语句:选择性查询所需字段而非全表、全字段查询,减少数据加载和处理时间。使用适当的JOIN策略,比如利用/*+ MAPJOIN(小表名) */提示对小表使用MapJo...

2024-04-07 09:00:21 760

转载 快手关于海量模型数据处理的实践

01模型场景介绍1.实时大模型*本文数据具有即时性,不代表实时数据。‍‍快手的模型场景主要是实时的大模型。实时主要体现在社交上。每天都有新用户上传 1500 万以上的视频,每天有亿级以上的直播活跃用户,并且上传数每年都在同比上涨。大主要体现在流量规模。快手现在的日活达到了 3.87 亿,有千亿级别的日均曝光,百亿级别的日均播放,模型量级非常大,还要保证实时。并且快手的核心价值观是平等普惠,即千万...

2024-04-06 17:48:13 200

原创 javaer 为什么称redis、rabbitmq这些东西为中间件?

中间件(Middleware)是位于客户端和服务器端之间的软件服务层,它提供了一种通用服务的方式,帮助不同的应用程序、系统组件和服务之间进行交互和数据交换。中间件隐藏了底层的复杂性,使得开发者可以专注于业务逻辑的实现,而不需要从头构建底层的通信、数据管理等机制。Redis、RabbitMQ 等被称为中间件,是因为它们为应用程序提供了特定的服务(如数据存储、消息队列),从而充当了应用程序和底层系统之...

2024-04-06 17:48:13 648

原创 Java中多态的优势和劣势是什么?

多态的背景多态是面向对象编程(OOP)的核心概念之一,它允许一个方法或对象在不同的场景下有不同的表现形式。Java 中的多态主要通过继承(inheritance)和接口(interface)实现。多态性使得一个接口可以有多个不同的实现,一个方法可以在多个子类中有不同的行为。多态的优势代码可重用性:通过使用多态,可以写出更通用的代码,增加了代码的可重用性。可扩展性:多态提高了程序的可扩展性,使得新的...

2024-04-04 20:26:33 192

转载 如何高效接入 Flink:Connecter / Catalog API 核心设计与社区进展

在正式介绍这些 API 的细节之前,要把这些 API 以它们的分层列了出来,下面一层 API 是 DataStream ,针对 Java 开发一般都是基于 DataStream API 直接开发的。再往上一层就是 Table 和 SQL API ,Connector API 分层也是类似的,如果是想实现一个 Connector 的话其实是一个自底向上的过程。首先需要实现 DataStream 层上...

2024-04-03 19:24:15 52

转载 这样搭建日志中心,传统的ELK就扔了吧!

最近客户有个新需求,就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的页面,咱也做不到。成熟的日志解决方案,那就是ELK,还有现在比较火的Loki,(当然还有很多其他解决方案,比如Splunk、Datadog等),那我们这个小网站,小体量,必然是选择Loki来做。所以这次就采用Nginx+Pr...

2024-04-03 19:24:15 34

原创 如何判断hive sql生成mapreduce任务的数量

在 Hive 中,一个 SQL 查询最终会被翻译成一个或多个 MapReduce 作业。判断 Hive SQL 生成的 MapReduce 任务数量通常涉及以下几个方面:1. 使用 EXPLAIN 命令Hive 提供了 EXPLAIN 命令,它可以显示 Hive SQL 查询的执行计划,包括将要执行的 MapReduce 作业的数量和详细的阶段信息。要查看一个查询的执行计划,可以在 Hive 查询...

2024-04-02 08:30:54 694

转载 大规模事件处理选择Redis,还是Kafka?

Kafka以解决大规模数据处理问题而闻名,并被广泛部署在许多知名公司的基础设施中。早在2015年,LinkedIn有60个集群,总共有1100个Broker,每秒处理1300万条信息。但事实证明,规模并不是Kafka唯一擅长的事情。它所提倡的编程范式——分区、有序、事件处理——对于你可能面临的许多问题都是一个很好的解决方案。例如,如果事件代表的是要被索引到搜索数据库的行,那么最后的修改就是最后的索...

2024-04-02 08:30:54 66

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除