自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1975)
  • 收藏
  • 关注

转载 Hudi 在 vivo 湖仓一体的落地实践

作者:vivo 互联网大数据团队 - Xu Y一、Hudi 基础能力及相关概念介绍1.1 流批同源能力与Hive不同,Hudi数据在Spark/Flink写入后,下游可以继续使用Spark/Flink引擎以流读的形式实时读取数据。同一份Hudi数据源既可以批读也支持流读。Flink、Hive、Spark的流转批架构:Hudi流批同源架构:1.2 COW和MOR的概念Hudi支持COW(Copy O...

2023-12-18 19:06:40 129

转载 月薪已炒到15w?真心建议数据人冲一冲新兴领域,工资高前景好

ESG真的火了!“企业ESG部门经理月薪10-15万,应届生起薪2-4万,已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注?ESG绝对能排在前三。作为行业新风口,ESG几乎席卷和覆盖了各大领域!这股风潮正在全行业悄然蔓延,大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人,到底有多香?各大企业要想可持续发展、ESG作为投资的重要...

2023-12-06 11:00:22 114

转载 FlinkCEP - Flink的复杂事件处理

FlinkCEP - Flink的复杂事件处理FlinkCEP是在Flink上层实现的复杂事件处理库。 它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。本页讲述了Flink CEP中可用的API,我们首先讲述[模式API],它可以让你指定想在数据流中检测的模式,然后讲述如何[检测匹配的事件序列并进行处理]。 再然后我们讲述Flink在按照事件时间[处理迟到事件]时的假设...

2023-12-05 08:00:33 122

转载 万字Spark性能优化宝典(收藏版)

导读:发现一篇好文,分享给大家。全文分为四个部分,基本涵盖了所有Spark优化的点,面试和实际工作中必备。全文较长,建议收藏后PC端查看或工作中问题troubleshooting。《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优篇》《Spark性能优化:shuffle调优篇》Spark性能优化:开发调优篇在大数据计算领域,Spark已经成为了越...

2023-12-04 08:00:27 87

转载 Hive/Spark/Flink增量查询Hudi最佳实践一网打尽

、一、Hive增量查询Hudi表同步Hive我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。例如,如果table name = hudi_tbl,我们得到hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读优化视图,从而提供了纯列式数据hudi_tb...

2023-12-02 22:31:10 253

转载 一文讲透如何做数据分析和指标体系

本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘,可以看我的历史文章,有很多代码相关的内容。从一个小白接触支付业务,毫无章法胡乱看数据,到开始有点门道看表层数据,再到此篇文章输出的成体系的数据分析系列篇章,前后经历了2年多时间。此篇文章内容皆为当前阶段认知,后续肯定会持续做迭代更新。01为什么需要数据分析数据分析的重要性不言而喻,没有数据,就是感性呀。你说你...

2023-11-30 21:44:07 126

转载 数据治理:数据血缘关系!

数据血缘是元数据产品的核心能力,但数据血缘是典型的看起来很美好但用起来门槛很高的技术,只要你采买过元数据产品就知道了。这篇文章对数据血缘的特征、价值、用途和方法做了系统阐述:1、特征:归属性、多源性、可追溯及层次性2、价值:数据价值评估、数据质量评估及数据生命周期管理3、用途:合规需求、影响分析和质量问题分析、数据安全和隐私、迁移项目及自服务分析4、方法:自动解析、系统跟踪、机器学习方法及手工的收...

2023-11-29 23:01:53 153

转载 用户画像的原理、模型和应用

全文共 4078个字,建议阅读9分钟在数字时代,用户数据的规模和复杂性不断增加,对企业而言,了解和理解用户成为关键的竞争优势。用户画像作为一种有效的用户分析工具,能够帮助企业深入洞察用户需求、行为和特征。本文将介绍用户画像的基础概念、原理、方法论(模型)以及在实际应用中的价值。01 用户画像的基础概念用户画像是根据用户的个人信息、兴趣爱好、行为习惯等多维度数据进行分析和描述,形成的用户特征模...

2023-11-22 20:02:35 161

转载 基于Lambda架构的实时电商数仓建设经验分享

导读文章分享了某电商平台离线数仓、实时数仓、数据应用等方面的实践经验。全文目录:1. 背景介绍2. 技术选型3. 电商离线数仓4. 电商实时数仓5. 电商数据应用6. 后续演进和流批一体探索01背景介绍电商是移动互联网时代最重要的业务形式之一,目前主流的业务形态是B2C。在这个群雄逐鹿的年代,除了淘宝、京东、拼多多等头部电商以外,还活跃着众多的中小规模电商平台。笔者所在公司的电商APP就是其中一...

2023-11-15 09:01:38 109

转载 详解数据仓库之拉链表(原理、设计以及在Hive中的实现)

最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!近几天也会安排朋友圈点赞赠书活动(ง•̀_•́)ง0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个...

2023-11-12 13:25:57 94

转载 基于阿里云 Flink+Hologres 搭建实时数仓

背景信息随着社会数字化发展,企业对数据时效性的需求越来越强烈。除传统的面向海量数据加工场景设计的离线场景外,大量业务需要解决面向实时加工、实时存储、实时分析的实时场景问题。传统离线数仓搭建的方法论比较明确,通过定时调度实现数仓分层(ODS->DWD->DWS->ADS);但对于实时数仓的搭建,目前缺乏明确的方法体系。基于 Streaming Warehouse 理念,实现数仓分层...

2023-11-11 09:05:56 457

转载 一文学完所有的Hive SQL(两万字最全详解)

Hive SQL 大全本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类:一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode ...

2023-11-07 09:01:13 4696 1

转载 最容易出错的 Hive Sql 详解

前言在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。正文开始1. decimalhive 除了支持...

2023-10-31 22:09:37 152

转载 字节基于 Hudi 的批流一体存储实践

01背景与挑战首先来介绍一下相关背景。传统数仓存在实时和离线两条链路,来满足业务对于时效数据的时效性和数据量的不同需求。离线会维护历史的全量视图,实时会维护增量视图,最后在服务层去进行数据的汇总,从而支持后续的在线的serving、 OLAP 查询以及看板的应用等等。因为处理场景的差异,在实时和离线数仓的具体实现上,依赖的底层存储计算引擎基本上是完全隔离的,实时依赖的主要是以 Flink 为代表...

2023-10-19 09:37:24 198

转载 学会 arthas,让你 3 年经验掌握 5 年功力!

作者:dan_seek链接:https://juejin.cn/post/7114540497187635208# 简介Arthas 是Alibaba开源的Java诊断工具,动态跟踪Java代码;实时监控JVM状态,可以在不中断程序执行的情况下轻松完成JVM相关问题排查工作 。支持JDK 6+,支持Linux/Mac/Windows。这个工具真的很好用,而且入门超简单,十分推荐。# 使用场景这个类...

2023-10-16 10:06:23 90

转载 美团增量数仓建设新进展

01美团增量数仓的建设背景美团数仓架构的诞生是基于这样的技术假设:“随着业务数据越积越多,增量数据 / 存量数据 的比值呈下降趋势,采用增量计算模式性价比更高。”当然也与底层技术的发展有很强的相关性,Flink、Hudi 等具备增量计算、更新能力的技术框架,为增量数仓落地的提供了必要条件。从时间线上看,增量数仓架构的演进过程可大致划分为三个阶段:第一个阶段,2019 到 2020 年。这个阶段,业...

2023-10-14 09:25:48 102

转载 基于 Flink CDC 高效构建入湖通道

01Flink CDC 核心技术解析Flink CDC 是基于数据库日志的 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。 如上图所示,数据库表里有历史的全量数据和实时写入的增量数据,Flink CDC 框架的能力就是在保证 Exa...

2023-10-13 08:48:35 96

转载 业务思考:如何利用数据分析讲好业务?

内容主题就是“如何利用数据分析讲好业务故事“,具体又分为三部分,如何理解业务要素及其与数据、分析的关系,如何把业务需求转换为标准问题,如何借助于交互实现探索分析。01了解业务,及其与数据、分析的层次关系每当我进入到一个新的行业,我都用一套标准的方法理解业务,并进而理解数据表和分析需求。1、「业务-数据-分析框架」业务理解是由三个部分构成的:业务对象、业务过程,业务规则。业务对象是在交易过程中能够看...

2023-10-11 10:26:06 149

转载 基于元数据构建智能化治理平台建设实践

‍导读本文将分享网易云音乐基于元数据构建智能化治理平台的建设实践。主要包括四个部分:1.音乐数据平台的规模和现状2.治理平台的建设背景和目标3.治理平台的建设和落地4.治理平台的未来规划分享嘉宾|汪磊网易云音乐 数据平台开发专家编辑整理|罗庆新出品社区|DataFun01音乐数据平台的规模和现状我们通过数据平台整合技术和业务,对业务赋能,使用户能够高效、稳定、安全、经济和准确地使用...

2023-10-10 10:03:12 111

转载 芒果 TV 基于 Flink 的实时数仓建设实践与演进

01芒果 TV 实时数仓建设历程芒果 TV 实时数仓的建设共分为三个阶段,14-19 年为第一阶段,技术选型采用 Storm/Flink Java+Spark SQL。20-22 年上半年为第二阶段,技术选型采用 Flink SQL+Spark SQL 。22 年下半年-至今为第三阶段,技术选型采用 Flink SQL+StarRocks。每一次升级都是在原有基础上进行迭代,以求更全面的功能,更快...

2023-10-09 09:41:07 76

转载 用户增长常见分析模型

01什么是用户增长 用户增长基本上会涉及生意场上的各行各业,你开个店面希望有更多的客户光顾,你做了个APP希望有更多的用户经常使用,你搭建了个电商平台希望有更多的人下单买东西。 用户增长,即以提升用户LTV为目的(含获取、激活、留存、变现、推荐等环节)所进行的一切增长活动。受互联网红利退潮影响,越来越多的企业感到获客不易,所以用户增长是确保产品健康发展下去的永恒话题。但是...

2023-10-02 18:13:47 510

原创 大数据圈还能混吗?

工作这么多年,浪尖一直从事大数据相关的架构设计,计算框架的二次开发,尤其是实时计算框架,最近两年在搞实时数仓和数据分析,浪尖算是跟着大数据生态成长起来的老人了。最近也跟一些猎头聊过现今招聘现状,结论是怎一个惨字了得。目前,大数据能做的或者还在折腾的方向基本就是:1.数仓建设,大都是是 lamda 架构,也即是离线+实时数仓。这也是 lamda 架构演进的第二阶段。2.通过湖仓一体,来实现离线和实时...

2023-09-30 06:49:37 98

转载 幸福里基于 Flink & Paimon 的流式数仓实践

摘要:本文整理自字节跳动基础架构工程师李国君,在 Streaming Lakehouse Meetup 的分享。幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未...

2023-09-26 00:17:50 157

转载 长文详解HiveSQL执行计划

本文目录:一、前言二、SQL的执行计划2.1 explain 的用法2.2 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段2.3 explain dependency的用法 案例一:识别看似等价的代码 案例二:识别SQL读取数据范围的差别2...

2023-08-31 23:43:42 3346

转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

正 文0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive...

2023-08-02 21:23:00 266

转载 微信安全基于 Flink 实时特征开发平台实践

01背景介绍微信是国内较庞大而复杂的业务,平台上包括通讯、社交、短视频、支付、小程序、企业微信等等大的业务,小的业务也有上千个。逐利的黑灰产哪里流量多、能赚钱,他们就跑到哪里去,所以微信会被业务黑灰产给盯上,这时如果业务安全、风控没有做好,会让公司和用户蒙受很大的损失。而我们风控团队的职责就是与这些黑灰产进行对抗。在对抗过程中,我们面对了很多挑战,主要有以下三点:需要面对百万规模从业人员的黑产,而...

2023-07-25 22:02:12 154

转载 fastjson 很好,但不适合我!

Java指南:https://java-family.cnFastJson 在国内的热度还是挺高的,受到了很多开发者的喜欢。不过,我自己倒没有在项目中用过。我记得刚工作那会新做的一个项目有明确规定禁止使用 FastJson。昨天看到一篇关于 FastJson 的文章,这位朋友分享了自己在使用 FastJson 遇到的一些问题。原文地址:https://juejin.cn/post/72158868...

2023-07-25 22:02:12 839

转载 万字漫游数据仓库模型从入门到放弃

一、数仓建模的意义数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。高性能:良好的数据模型能够帮助我们快速查询所需要的数据。低成本:良好的数据模型能减少重复计算,实现计算结果的复用,降低计算成本。高效率:良好的数据模型能极大的改善用户使用数据的体验,提高使用数据的效率。高质量:良好的数...

2023-07-16 19:47:47 137

转载 从ODS到ADS,详解数仓分层!

来源:企业数字化咨询全文共14051个字,建议阅读 20分钟一、为什么要对数据仓库分层?只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。01 分层意义1)清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统...

2023-07-09 20:53:54 743

转载 探秘 Kafka 的内部机制原理

简介kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念,生产者往topic里写消息,消费者从读消息。为了做到水平扩展,一个topic实际是由多个partition组成的,遇到瓶颈时,可以通过增加partition的数量来进行横向扩容。...

2023-07-01 18:48:04 148

转载 网易基于Apache Ranger 的数据安全中心实践

导读本次分享主题为网易基于Apache Ranger构建大数据安全中心的实践。主要内容包括:主要内容包括以下几大部分:1. Apache Ranger介绍2. 大数据安全中心整体解决方案3. 关键技术分析4. 成果&规划分享嘉宾|吴俣 网易数帆资深开发工程师编辑整理|唐洪超hotata出品社区|DataFun01Apache Ranger介绍1. 总体介绍Apache Ranger是...

2023-06-17 09:29:46 244

转载 美团买菜基于 Flink 的实时数仓建设

01背景介绍美团买菜是美团自营生鲜零售平台,上面所有的商品都由美团亲自采购,并通过供应链物流体系,运输到距离用户 3km 范围内的服务站。用户从美团买菜平台下单后,商品会从服务站送到用户手中,最快 30 分钟内。上图中,左侧的时间轴展示了美团买菜的发展历程,右侧展示了美团买菜丰富的商品。目前,美团买菜在北上广深、武汉等城市均有业务覆盖,为人们日常的生活提供便利。在疫情场景下,起到了非常重要的保障民...

2023-06-13 22:06:22 61

转载 AI生成一个dau下跌原因分析策略文章,大家看看咋样?

Dau下跌,对于一家互联网公司来说是一件非常头疼的事情。尤其对于一个依托用户量来盈利的公司来说,dau下跌就意味着业绩下滑。那么,dau下跌的原因是什么?Dau下跌的主要原因是因为新增用户增多的速度没有跟上,同时回流用户减少和留存率降低也是原因之一。这些原因,都和用户息息相关。因此,只要我们挖掘出用户的需求,并且满足这些需求,dau自然就会上涨。首先,提高用户新增。可以通过增加投放点位、推出优惠活...

2023-05-22 09:01:10 135

转载 一文搞懂数据仓库、数据平台、数据中台、数据湖的概念和区别

我们经常听到别人谈论数据仓库、数据平台、数据中台、数据湖的相关概念,它们都与数据有关系,但它们之间又有什么区别,下面将围绕数据仓库、数据平台、数据湖和数据中台的概念、架构、使用场景进行介绍。一、数据仓库1. 数据仓库概念数据仓库由比尔·恩门(Bill Inmon,数据仓库之父)于1990年提出,主要功能是将企业系统联机事务处理(OLTP)长期壁垒的大量数据,通过数据仓库理论支持所持有的数据存储结构...

2023-05-21 20:54:58 974

转载 Java 17 采用率在一年内增长 430% !

出品| OSC开源社区(ID:oschina2013)New Relic 最新发布了一份 “2023 年 Java 生态系统状况报告”,旨在提供有关当今 Java 生态系统状态的背景和见解。该报告基于从数百万个提供性能数据的应用程序中收集的数据,对生产中使用最多的版本、最受欢迎的 JDK 供应商、容器的兴起等多方面进行了调研分析。# Java 17 用户采用率在一年内增长了 430%Java 每...

2023-05-17 20:47:17 156

转载 深入理解数据仓库建模

一、数据仓库建模的意义如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才...

2023-04-23 08:00:58 247

转载 2万字,详解数据湖,概念、特征、架构、方案、场景以及建湖全过程(建议收藏)...

导读:最近,数据湖的概念非常热,许多前线的同学都在讨论数据湖应该怎么建?有没有成熟的数据湖解决方案?各大厂商的数据湖解决方案到底有没有实际落地的案例?怎么理解数据湖?数据湖和大数据平台有什么不同?带着这些问题,我们尝试写了这样一篇文章,希望能抛砖引玉,引起大家一些思考和共鸣。本文共有以下7个章节:什么是数据湖数据湖的基本特征数据湖基本架构各厂商的数据湖解决方案典型的数据湖应用场景数据湖建设的基本过...

2023-03-25 09:18:55 2613

转载 万字长文详解HBase读写性能优化

01HBase读优化1. HBase客户端优化和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题:1) scan缓存是否设置合理?优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来讲一次scan会返回大量数据,因此客户端发起一次scan请求,实际并不会一次就将所有数据加载到本地,而是分成多...

2023-03-19 09:02:00 582

转载 广告流量反作弊风控中的模型应用

作者:vivo 互联网安全团队- Duan Yunxin商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务风控,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍风控系统中常用算法模型,以及实战过程中具体风控算法模型的应用案例。一、广告反作弊简介1.1 广告流量反作弊定义广告流量作弊,即媒体通过多种...

2023-02-17 22:00:17 591

转载 案例 | 通过PySpark实现城市热点大数据统计

1 需求分析在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。我们根据每个用户的IP地址,与我们的IP地址段进行比较,确认每个IP落在哪一个IP端内,获取经纬度,然后绘制热力图。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。2 技术调研因为我们的需求...

2023-02-09 22:06:22 364

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除