自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1974)
  • 收藏
  • 关注

转载 Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?

来源:数据学堂编辑:谈数据全文共9060个字,建议阅读20分钟大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,...

2023-02-05 23:28:25 1851

转载 腾讯内部数据治理实践

导读:本文主要介绍目前腾讯数据治理的所在阶段和实践经验,以及基于目前的经验所沉淀的数据治理平台:WeData。今天的介绍会围绕下面三方面展开:数据治理挑战腾讯内部数据治理实践WeData 数据治理平台能力01数据治理挑战首先和大家分享腾讯在数据治理上所面临的挑战。1. 数据治理的挑战在数据治理的过程中会遇到很多问题,我们简单分成三类:管理类挑战:数据信息分散在不同的业务部门的业务库中,数据上报也分...

2023-01-30 10:13:21 808

转载 湖仓一体架构:数字化的终局之选!

下图是一张非常经典的数据分析技术演进图,从中可一窥整体发展历程。本文将按时间顺序盘点下各阶段产品及技术特点,并预测下未来发展方向。1 简单可用阶段:数据库(DataBase)早在1980年代初中期,是没有专门面向数据分析场景的产品。当时还是以面向事务交易场景为主,数据分析仅作为附带提供的场景。主要是面对管理层提供固定报表,满足宏观管理决策。作为底层数据库,通过标准SQL提供数据分析能力。这一架构在...

2023-01-18 21:45:32 445

转载 数据治理体系建设与数据资产路线图规划

来源:数据学堂编辑:谈数据企业需要转变对数据资产价值的认知,在企业运营及管理中建立数据资产价值体系。在数字化业务领域中,需要考虑将数据权属定义至指定的部门及岗位,将数据资产的价值纳入到整体运营及考核中,真正做到将数字资产的价值嵌入到每一个数字化流程。企业在建立数据资产管理体系后,需要进一步挖掘及发挥数据资产价值。不仅是常见的数据决策分析,还需要体现在数字化业务的各个环节。从生产驱动价值转变为数据驱...

2023-01-12 09:00:27 750

转载 经典的漏斗分析

作者:赵壮实 01 什么是漏斗分析漏斗分析是一套流程式的数据分析方法,能够科学地反映各阶段用户转化情况。漏斗分析模型已经广泛应用于用户行为分析类产品,且功能十分强大:它可以评估总体或各个环节的转化情况、促销活动效果;也可以与其他数据分析模型结合进行深度用户行为分析(如多维下钻分析、用户分群、对比分析等),从而找到用户流失的原因,以提升用户量、活跃度、留存率。漏斗分析最常用的两个互补型指标...

2023-01-11 08:00:12 401

转载 阿里九面,数据研发面经!

今天分享的是在内推转为校招的情况下,一共面试了9轮,艰难上岸阿里的数据研发岗。希望通过他的分享,对大家在如何学习和准备面试方面有所帮助!说了九次面试感觉我是大神,拿了SP之类,其实并不是,内情就是内推转为了校招,内推五次面试,校招四次面试,在加校招的笔试。本帖子适用于跨专业的人士。sp勿喷,有错别字,勿喷,只是想写个面试经验给以后的人士。我投递是数据岗位,对于之前我主要搞机器人的我来讲,基本处于什...

2023-01-09 08:00:07 776

转载 实时数仓的过去现在和未来

1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。我们所常说的企业数据仓库Enterprise Data Warehouse (EDW) ,就是一个用于聚合不同来源的数据(比如事务系统、关系数据库和操作数据库),然后方便进行数据访问、分析和报告的系统(例如销售交易数据、移动应用数据和C...

2023-01-08 11:27:32 177

转载 阿里大数据管理篇大总结

第1章 元数据1.1 元数据概述1.1.1 元数据定义元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。元数据按用途的不同分为两类:技术元数据( Technical Metadata) 和业务元数据(Business Metadata )技术元数据:是存储关于数据仓库系统...

2023-01-05 12:32:22 649

转载 指标波动多大才算是异常?

导读:先举个例子,体温37.4度vs体温36.5度,只有2.5%的波动,可如果有人在测温点被发现体温37.4度,估计马上就被拉走做核酸。为啥?因为人们不是怕2.5%的波动,而是怕新冠!所以,指标波动不可怕,指标波动代表的业务场景才可怕!脱离业务场景谈指标波动就是耍流氓。在各种业务指标中,数据往往不是静止不变的,尤其是当一些核心的指标发生了变化、波动时,就需要判断这样的波动是否属于异常的情况。那么波...

2022-12-25 21:18:33 293

转载 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

作者丨修鹏李全文共37817个字,建议阅读需50分钟如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据...

2022-12-23 21:57:36 793

转载 数据指标设计的奥妙

就像人走路的时候需要看到前方的道路,产品和运营在做决策前也需要睁开“双眼”。左眼,是数据;右眼,是用研。(哎,别问我为什么不是左眼用研,右眼数据……)通过线上数据反馈,我们可以准确地发现问题,找到规律,求证猜想,平息主观之争,为产品改进和运营优化的制定和实施提供明确的方向。一、互联网公司数据职能设置互联网公司普遍十分重视数据,数据部门职能设置却各不相同。大多会设置独立的BI部门(如携程、京东),有...

2022-12-21 21:13:22 269

转载 5000字,详解数据仓库构建方法论和实践

来源:大数据真好玩全文共5676个字,建议阅读10分钟本文主要讨论数据仓库的构建方法论,包括数据仓库的价值、选型、构建思路。随着数据规模膨胀和业务复杂度的提升,大型企业需要构建企业级的数据仓库(数据湖)来快速支撑业务的数据化需求,与传统的数据库构建不通,数据仓库即是OLAP场景,偏于历史数据的存储/分析,用冗余存储换取数据价值。01 数据仓库与数据库的区别所有的应用系统都会涉及到数据库,针对...

2022-12-18 23:23:44 436

转载 Hive分区表:静态分区、动态分区、多重分区介绍

01分区表的引入、产生背景现有6份数据文件,分别记录了《王者荣耀》中6种位置的英雄相关信息。现要求通过建立一张表t_all_hero,把6份文件同时映射加载。createtablet_all_hero(idint,namestring,hp_maxint,mp_maxint,attack_maxint,defense_max...

2022-12-15 08:00:28 1590

转载 20000字,详解大厂实时数仓建设(好文收藏)

来源:五分钟学大数据全文共计17956字,预计阅读时间30分钟一、实时数仓建设背景1. 实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数...

2022-12-13 08:00:43 1103

转载 200分钟详解 FlinkSQL 原理和实践!强烈推荐!!!

马云曾在一次演讲中说道:“未来的时代,将不再是 IT 时代,而是 DT 时代。”的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:云计算技术的发展会降低功能开发的难度,很多开发会向低代码方向发展。大数据的价值空间正在逐渐形成,而围绕大数据进行价值化操作将是一个新的发展趋势,人才需求会更集中。大数据是人工智能的基础,但...

2022-12-07 08:00:18 775

转载 ​网易数帆数据治理演进

导读:本文将分享网易数帆数据治理的发展过程,以及对现代数据治理的概念和理念的理解,提出现代数据治理应该与数据开发和消费很好地衔接,具备开发治理一体化、形成治理的闭环、仓内仓外统一治理和建立数据资产门户等核心特点。文章将从以下四个方面展开:网易数帆大数据简介统建中台:先设计后开发见招拆招:运动式治理治理体系:现代数据治理分享嘉宾|余利华 网易数帆 大数据产品线总经理编辑整理|许友昌 每日互动出品社区...

2022-12-04 10:55:45 442

转载 别再问问JDK的Stream怎么用了好么?面试官

JDK8发布到现在,已经过了8年的时间了,但是就是到现在,依然在面试的过程中,还有人问这个 JDK8 里面都优化了什么内容,对比 JDK7 来说,今天阿粉就再继续叨叨一次,真的是让面试官给整服气了。JDK8 的 StreamJDK8 要说牛,那是真的牛,让你的代码变的更加的简洁,为什么这么说,那就是因为 Stream 流的存在。Stream 是 Java8 中处理集合的关键抽象概念,它可以指定你希...

2022-12-04 10:55:45 202

转载 数据湖架构落地实战

与传统的数据架构要求整合、面向主题、固定分层等特点不同,数据湖为企业全员独立参与数据运营和应用创新提供了极大的灵活性,并可优先确保数据的低时延、高质量和高可用,给运营商数据架构优化提供了很好的参考思路。运营商数据架构的现状及挑战从数据的系统归属上看,运营商数据可分为MSS(管理支撑系统)的面向人、财、物管理类数据,BSS(业务支撑系统)的面向客户和产品的营销及客户服务数据,OSS(运营支撑系统)的...

2022-12-01 08:00:22 222

转载 数据仓库指标体系搭建实战

指标体系1. 痛点分析主要从业务、技术、产品三个视角来看:业务视角业务分析场景指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。技术视角指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;指标生产,重复建设;数据汇算成本较高;指标消费,数据出口不统一,重复输出,输出口径不一致;产品视角缺乏系统产品化支持从生产到消费数据流...

2022-11-28 08:00:40 340

转载 HiveSQL中的JOIN ON条件,你理解对了吗?

HiveSQL很常用的一个操作就是关联(Join)。Hive为用户提供了多种JOIN类型,可以满足不同的使用场景。但是,对于不同JOIN类型的语义,或许有些人对此不太清晰。简单的问题,往往是细节问题,而这些问题恰恰也是重要的问题。本文将围绕不同的JOIN类型,介绍JOIN的语义,并对每种JOIN类型需要注意的问题进行剖析,希望本文对你有所帮助。JOIN类型类型含义Inner Join输出符合关联条...

2022-11-26 10:10:17 2305

转载 阿里大数据之路:数据模型篇大总结(收藏)

第1章 大数据领域建模综1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法,以便在性能、成本、效率之间取得最佳平衡成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。质量:良好的数据模...

2022-11-22 08:34:56 927

转载 从0到1详解企业级数据治理体系

数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。如有遗漏之处,欢迎留言评论区...

2022-11-20 19:43:30 230

转载 数据治理:元数据及元数据管理策略、方法和技术

来源:一本书讲透数据治理作者:石秀峰数字化时代,企业需要知道它们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。这些问题都需要通过元数据管理解决,缺乏有效的元数据管理,企业的数据资产可能会变成拖累企业利润的“包袱”。数据已经成为增强企业竞争力的核心要素,有效地管理和使用数据成...

2022-11-14 09:40:28 575

转载 Java几种常用 JSON 库性能比较,哪家最强?

链接:https://xncoding.com/2018/01/09/java/jsons.html本篇通过JMH来测试一下Java中几种常见的JSON解析库的性能。每次都在网上看到别人说什么某某库性能是如何如何的好,碾压其他的库。但是百闻不如一见,只有自己亲手测试过的才是最值得相信的。JSON不管是在Web开发还是服务器开发中是相当常见的数据传输格式,一般情况我们对于JSON解析构造的性能并不需...

2022-11-14 09:40:28 302

转载 详解用户画像与实时数仓的架构与实践

用户画像与实时数据分析是互联网企业的数据核心。知乎数据赋能团队以 Apache Doris 为基础,基于云服务构建高响应、低成本、兼顾稳定性与灵活性的实时数据架构,同时支持实时业务分析、实时算法特征、用户画像三项核心业务流,显著提升对于时效性热点与潜力的感知力度与响应速度,大幅缩减运营、营销等业务场景中的人群定向成本,并对实时算法的准确率及业务核心指标带来明显增益。关键词:数据仓库,Apache...

2022-11-11 08:00:46 341

转载 HiveSQL分析函数实践详解

目录一、窗口函数概述:1.窗口函数的分类2.窗口函数与普通聚合函数的区别:二、窗口函数的基本用法1.基2.设置窗口的方法1)window_name2)partition by 子句3) order by子ve句4)rows 指定窗口大小3.开窗函数中加order by 和 不加 order by的区别三、窗口函数用法举例1.序号函数:row_number() / rank() / dense_ra...

2022-11-09 08:00:45 657

转载 性能优化的十种手段

最近看到一个关于性能优化的不错的文章。作者写了上中下三篇,由浅入深的写了关于性能优化的方方面面,并不仅仅局限于代码层面。我看了之后还是很有收获的,同时也惊叹于作者扎实的技术能力与思考能力。于是借花献佛,把作者的三篇整理合并之后分享给大家。希望你也能有所收获。上篇引言:取与舍 软件设计开发某种意义上是“取”与“舍”的艺术。关于性能方面,就像建筑设计成抗震9度需要额外的成本一样,高性能软件系统也意味着...

2022-11-09 08:00:45 390

转载 更快更稳更易用: Flink 自适应批处理能力演进

Flink 是流批一体计算框架,早些年主要用于流计算场景。近些年随着流批一体概念的推广,越来越多的企业开始使用 Flink 处理批业务。虽然 Flink 在框架层面天然支持批处理,但在实际生产使用中依然存在问题。因此在近几个版本中,社区也一直在持续改进 Flink 批处理问题,这些改进体现在 API、执行与运维三个层面。在 API 层面,我们一直在改进 SQL,完善其语法,并使其能够兼容 HIVE...

2022-11-05 08:37:15 554

转载 如何成为一名合格的数据产品经理?

来源:数据学堂全文共5400个字,建议阅读10分钟最近好几个读者问我数据产品的一些问题,今天分享一篇文章。近些年来,产品经理的一个新的分支——数据产品经理正在兴起。很多企业开始意识到大数据对于企业管理和精细化运营的重要性,着手招聘大量数据相关的从业人员,开发各种数据产品。数据会对业务产生非常直接的影响,会影响业务负责人对业绩现状和团队努力的认知、对驱动因素的深层次思考,进而影响其对业务方向...

2022-11-05 08:37:15 330

转载 元数据管理实践&数据血缘

什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和使用数据,另一方面是为了让平台管理人员能更加有效的做好...

2022-11-03 08:00:03 717

转载 万字详解大数据架构新概念

随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将...

2022-10-16 21:27:13 374

转载 基于 Flink 构建大规模实时风控系统在阿里巴巴的落地

目前 Flink 基本服务于集团的所有 BU ,在双十一峰值的计算能力达到 40 亿条每秒,计算任务达到了 3 万多个,总共使用 100 万+ Core ;几乎涵盖了集团内的所有具体业务,比如:数据中台、AI 中台、风控中台、实时运维、搜索推荐等。01基于 Flink 构建风控系统风控是一个很大的话题,涉及到规则引擎、NoSQL DB、CEP 等等,本章主要讲一些风控的基本概念。在大数据侧,我们把...

2022-10-12 08:00:19 1455

转载 看完这篇, FlinkSQL 统统能整明白了

马云曾在一次演讲中说道:“未来的时代,将不再是 IT 时代,而是 DT 时代。”的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:云计算技术的发展会降低功能开发的难度,很多开发会向低代码方向发展。大数据的价值空间正在逐渐形成,而围绕大数据进行价值化操作将是一个新的发展趋势,人才需求会更集中。大数据是人工智能的基础,但...

2022-10-12 08:00:19 862

转载 Clickhouse 索引原理,很多原理在很多地方都是通用的

来源 |blog.csdn.net/maligebazi/article/details/12564703401、概述02、一级索引03、稀疏索引04、索引粒度05、索引的查询过程06、二级索引/跳数索引07、granularity与index_granularity的关系08、跳数索引的类型09、minmax 索引10、set 索引11、ngrambf_v1 / tokenbf_v1索引12、...

2022-10-10 09:49:15 484

转载 别被骗了,try-catch语句真的会影响性能吗?

不知道从何时起,传出了这么一句话:Java中使用try catch 会严重影响性能。然而,事实真的如此么?我们对try catch 应该畏之如猛虎么?一、JVM 异常处理逻辑Java 程序中显式抛出异常由athrow指令支持,除了通过 throw 主动抛出异常外,JVM规范中还规定了许多运行时异常会在检测到异常状况时自动抛出(效果等同athrow), 例如除数为0时就会自动抛出异常,以及大名鼎鼎的...

2022-10-07 08:57:34 455

转载 8000字详解银行业数据治理架构体系搭建

为引导银行业金融机构加强数据治理,充分发挥数据价值,全面向高质量发展转变,银监会于2018年发布了《银行业金融机构数据治理指引》,主要内容如下:近年来银行业金融机构在业务快速发展过程中,积累了客户数据、交易数据、外部数据等海量数据。数据已经成为银行的重要资产和核心竞争力,充分发挥数据价值,用数据驱动银行发展,提高银行经营质效,具有重要意义。在此过程中,打破传统运营模式,引入金融科技或创新手段势在必...

2022-10-07 08:57:34 968

转载 美团超1.5万台Kafka,抗下每秒数亿消息量的挑战

Kafka在美团数据平台承担着统一的数据缓存和分发的角色,随着数据量的增长,集群规模的扩大,Kafka面临的挑战也愈发严峻。本文分享了美团Kafka面临的实际挑战,以及美团针对性的一些优化工作,希望能给从事相关开发工作的同学带来帮助或启发。一、现状和挑战1.1 现状1.2 挑战二、读写延迟优化2.1 概览2.2 应用层2.3 系统层2.4 混合层-SSD新缓存架构三、大规模集群管理优化3.1 隔离...

2022-10-05 21:55:23 148

转载 判断客户价值,用好这3个数据分析模型就足够了!

细边框标题工作中,很多时候都是要在资源有限的情况下,去最大化的撬动效益。挖掘创造最大价值的用户,给用户分类针对性营销等,就是一种典型的应用。本文将来谈谈常用的几个衡量客户价值的数据分析模型,以及它们的应用场景。这在用户运营、市场营销、客户管理等领域常常会用到。01使用帕累托模型判断重要客户帕累托原则,又称二八原则,是关于效率与分配的判断方法。帕累托法则是指在任何大系统中,约80%的结果是由该系统中...

2022-09-29 08:40:12 842

转载 数据仓库模型全景

数据仓库模型构建一、数据仓库构建需要考虑的问题与数据库的单表基于ER模型构建思路不同,其面向特定业务分析的特性,决定了它的构建需要整合多套数据输入系统,并输出多业务条线的、集成的数据服务能力,需要考虑更全面的因素,包括:业务需求:从了解业务需求着手分析业务特点和业务期望;系统架构:从系统架构和数据分布、数据特性等角度,分析系统架构设计上是否有问题;逻辑设计:从数据模型逻辑设计出发是否设计合理,是否...

2022-09-29 08:40:12 215

转载 BI和报表到底有什么区别?

在很多人入门数据分析师或者投身大数据行业的时候,必然会听到的两个词就是“报表工具”和“BI商业智能”。然而很多人并不明白两者的概念和区别,以为报表就是BI,BI就是报表。其实这是相当错误的理解,造成这种错误观念的原因主要是两者都是大数据时代下的分析工具,两者的功能有所重合,想要搞清楚两者之间的区别,就要从报表工具和BI商业智能工具的应用场景上分析。01 BI商业智能与报表软件有什么区别?报表是数据...

2022-09-27 23:03:57 457

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除