自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1344)
  • 收藏
  • 关注

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 43

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipe...

2021-06-15 09:00:00 23

原创 数仓建模方法论

1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。

2021-06-12 20:12:51 93

转载 那些被问懵逼的数仓面试题

数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操...

2020-12-16 08:34:00 310

转载 8种ETL算法模型汇总大全!看完你就全明白了

摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加...

2020-12-07 17:55:22 630

原创 浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...

2020-12-06 16:08:14 764 5

转载 面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 170

原创 面试|spark刷爆磁盘与java弱引用的关系

一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...

2020-11-11 08:35:34 117

转载 Hbase Bulkload 原理|面试必备

当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 316

原创 漫画|讲解一下如何写简历&项目

star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...

2020-11-06 08:19:00 313

原创 漫画面试回答kafka为何如此之快|满分

一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2286 11

转载 大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...

2020-10-25 09:38:32 1967 1

原创 漫画讲解Kafka高效的存储设计|面试

在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...

2020-10-22 08:25:00 552

原创 漫画全面解释Spark企业调优点

一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 623 4

转载 HIVE-SQL优化

hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。优化的核心思想是:减少数据量(例如分区、列剪裁);避免数据倾斜(例如加参...

2021-08-05 09:00:00 4

转载 调度系统 | Airflow 快速入门

作者:Corwien来源:SegmentFault 思否社区一、Airflow简介Airflow 是一个使用 Python 语言编写的 Data Pipeline 调度和监控工作流的平台。...

2021-08-04 09:00:00 4

转载 大数据分析平台搭建指南

01先来谈谈企业搭建大数据分析平台的背景1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达...

2021-08-04 09:00:00 5

转载 Java 性能优化的 50 个细节(珍藏版)

在JAVA程序中,性能问题的大部分原因并不在于JAVA语言,而是程序本身。养成良好的编码习惯非常重要,能够显著地提升程序性能。1. 尽量在合适的场合使用单例使用单例可以减轻加载的负担,缩...

2021-08-03 09:00:00 34

转载 蜀海供应链数仓平台建设实践

导读:随着蜀海供应链业务的发展,供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中,存在数据生产链路太长,架构太复杂,开发运维...

2021-08-03 09:00:00 10

转载 基于数据中台的数据治理解决方案

来源/CIO之家,整理/Mars全文共1865个字,阅读需6分钟当前很多传统企业的数据中台还处于初步建设阶段,但伴随着移动互联网的逐步发展、线上和线下的融合,数据服务的形式、场景越来越多,...

2021-08-02 09:00:00 15

转载 淘宝、美团、滴滴分别如何搭建大数据平台

常规的大数据平台架构方案是基于大数据平台Lamda架构设计的。事实上,业界也基本是按照这种架构模型搭建自己的大数据平台。下面我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大...

2021-08-02 09:00:00 11

转载 一文概览数据仓库知识和面试

1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源...

2021-08-01 09:30:00 11

转载 美团商品知识图谱的构建及应用

导读:在互联网新零售的大背景下,商品知识图谱作为新零售行业数字化的基石,提供了对于商品相关内容的立体化、智能化、常识化的理解,对上层业务的落地起到了至关重要的作用。相比于美团大脑中围绕商户...

2021-08-01 09:30:00 13

转载 4W字全面解读数据中台、数据仓库和数据湖

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数...

2021-07-31 09:30:00 43

转载 关于数仓建设及数据治理的超全概括

本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!在谈数仓之前,先来看下面几个问题:数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(...

2021-07-30 09:00:00 22

转载 数据仓库体系建模&实施&注意事项小总结

什么是数仓从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。这里我们会遇到一个问题就是同样是存放数据的仓库,那数据库和...

2021-07-29 09:00:00 25

转载 谈谈ClickHouse性能情况以及相关优化

ClickHouse性能情况主要分为4个方面1、单个查询吞吐量场景一:如果数据被放置在page cache中,则一个不太复杂的查询在单个服务器上大约能够以2-10GB/s(未压缩)的速度进...

2021-07-29 09:00:00 47

转载 阿里巴巴数据中台12年建设与实践

编者按:从2016年诞生起,“中台”概念就一路火热至今,对互联网与传统行业数字化转型产生了极为深远的影响。作为“中台”概念的提出者和先行者,阿里巴巴用12年的实践探索了中台能力建设和数...

2021-07-28 09:00:00 3

转载 kafka存储结构以及Log清理机制

本文主要聚焦 kafka 的日志存储以及日志清理相关。日志存储结构首先我们来看一张 kafak 的存储结构图。如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里...

2021-07-28 09:00:00 7

转载 PB 级数据即席查询基于 Flink 的实践

首先做一个简单的个人以及团队介绍。我们来自 360 政企安全集团,目前主要从事 360 安全大脑的 “威胁狩猎“ 项目的开发工作。我们团队接触 Flink 的时间比较早,在此期间,我们基于...

2021-07-27 09:00:00 12

转载 老板要我开发一个简单的工作流引擎

来源:cnblogs.com/duck-and-duck/p/14436373.html第1关一天,老板找到我,说要做个简单的工作流引擎。我查了一天啥是工作流,然后做出了如下版本:图片按顺...

2021-07-26 09:54:18 9

转载 实战 | flink sql 与微博热搜的碰撞!!!

1.序篇通过本文你可以 get 到:背景篇定义篇-属于哪类特点的指标数据应用篇-预期效果是怎样的难点剖析篇-此类指标建设、保障的难点数据建设篇-具体实现方案详述数据服务篇-数据服务选型数据...

2021-07-26 09:54:18 7

转载 实时数仓不保障时效还玩个毛?

❝我要更快、更快更快!!!❞通过本文你可以 get 到:起因篇-为什么要做数据时效保障定义篇-数据时效保障包含哪些内容目标篇-时效性监控以及保障的目标机制篇-怎么去做数据时效监控以及保障效...

2021-07-25 10:00:00 13

转载 5 款强大的 JVM 性能调优监控工具 ,挺香

来源 | www.iteye.com/blog/josh-persistence-2161848现实企业级Java应用开发、维护中,有时候我们会碰到下面这些问题:OutOfMemoryEr...

2021-07-25 10:00:00 10

转载 全面解读数据中台、数据仓库和数据湖

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数...

2021-07-24 12:39:00 27

转载 Hive 拉链表实践

背景拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史。记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储...

2021-07-24 12:39:00 11

转载 聊聊维度建模的灵魂所在——维度表设计

前言维度表是维度建模的灵魂所在,在维度表设计中碰到的问题(比如维度变化、维度层次、维度一致性、维度整合和拆分等)都会直接关系到维度建模的好坏,因此良好的维表设计就显得至关重要,今天就让我们...

2021-07-22 09:34:05 13

转载 维度建模技术实践——深入事实表

事实表是维度建模的核心表和基本表。它存储了业务过程中的各种度量和事实,而这些度量和事实正是下游数据使用人员所要关心和分析的对象。目前事实表主要探讨三种:事务事实表快照事实表累计快照事实表还...

2021-07-22 09:34:05 8

转载 OLAP黑马利器ClickHouse实战应用

极简,几乎是所有工具类产品的终极目标。对于数据库工具而言尤为如此:应对多样化的数据分析场景,需要简洁、统一的大数据分析体系数据查询秒级响应,以保证企业管理者和相关业务人员的工作效率数据报...

2021-07-21 09:00:00 18

转载 企业大数据平台仓库架构建设思路

作者介绍李金波,阿里云高级技术专家,大数据数仓解决方案总架构师,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾任数据魔方、淘宝指数的数据架构设计专家。本文作者主要从...

2021-07-21 09:00:00 12

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除