- 博客(2021)
- 收藏
- 关注
转载 4w字Spark调优宝典(推荐收藏)
1 性能调优1分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...
2021-06-25 09:00:00 1109
转载 spark shuffle的几种特殊情况
1.shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipe...
2021-06-15 09:00:00 875
原创 数仓建模方法论
1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。
2021-06-12 20:12:51 2652 1
转载 那些被问懵逼的数仓面试题
数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操...
2020-12-16 08:34:00 1011
转载 8种ETL算法模型汇总大全!看完你就全明白了
摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加...
2020-12-07 17:55:22 3049
原创 浪尖聊聊大数据从业者的迷茫及解决方案
最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...
2020-12-06 16:08:14 1537 5
转载 面试|不可不知的十大Hive调优技巧最佳实践
Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...
2020-11-18 09:00:00 814
原创 面试|spark刷爆磁盘与java弱引用的关系
一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...
2020-11-11 08:35:34 363
转载 Hbase Bulkload 原理|面试必备
当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...
2020-11-10 08:59:49 1364
原创 漫画|讲解一下如何写简历&项目
star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...
2020-11-06 08:19:00 964
原创 漫画面试回答kafka为何如此之快|满分
一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...
2020-10-29 08:18:00 2697 11
转载 大数据开源框架技术汇总
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...
2020-10-25 09:38:32 3310 1
原创 漫画讲解Kafka高效的存储设计|面试
在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...
2020-10-22 08:25:00 813
原创 漫画全面解释Spark企业调优点
一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...
2020-10-18 20:43:40 854 4
转载 基于 Flink 进行增量批计算的探索与实践
摘要:本文整理自阿里云高级技术专家 Apache Flink PMC 朱翥老师,在 Flink Forward Asia 2024 流批一体(一)中的分享。内容主要分为三部分:背景介绍工作介绍总结展望本次分享的内容主要分为三个部分。首先,将探讨为何需要增量计算,以及为何选择 Apache Flink 进行增量计算的工作。第二部分将介绍当前的工作进展,以及增量计算的整体设计和关键设计要点。第三部分将...
2025-01-16 08:00:52 8
转载 横向对比,纵向分析:数据湖仓 vs 数据仓库 vs 数据湖 - 数据平台
几十年来,数据仓库(data warehouses)一直是企业构建数据平台的主要架构方法。然而,随着云、大数据和 Hadoop 等技术的出现,现代数据平台的发展加速,导致数据湖(data lake)和数据湖仓(data lakehouse)等各种选项的出现。根据领先的云提供商发表的文章,数据湖仓代表了新一代的数据平台。但每个数据平台架构师都应该问自己的问题是:data Lakehouse 是我的特...
2025-01-15 08:03:08 43
转载 年薪96w!数据人的新赛道,我决定入局!
数据人现在真的挺卷的。。。天天处理底层数据,像个打杂的;公司产品都在转AI方向,不了解大模型性能、不懂数据结构……专业技能上毫无竞争力,更别提升职加薪了!做几年数据,还没升职,就先到了“职业天花板”。想凭工作几年积累的经验,跳个槽,结果打开招聘软件一看:不懂AI业务的数据人,都快要被淘汰了!AI数据专家,太吃香了!24年AI产品全面爆发!通义千问、豆包、文心一言等产品让企业迎来新生机,产品模式的变...
2025-01-13 09:01:24 138
转载 从4.75s到0.6s,我仅动了一条SQL
一、前言软件在持续的开发和维护过程中,会不断添加新功能和修复旧的缺陷,这往往伴随着代码的快速增长和复杂性的提升。若代码库没有得到良好的管理和重构,就可能积累大量的技术债务,包括不一致的设计、冗余代码、过时的库和框架以及不再使用的功能。这些因素都会导致软件结构的脆弱,增加系统出错的可能性,我们俗称为“代码腐化”,持续性的重构是一种好的解决方案。SQL也是我们常用的代码语言,虽然SQL本身作为一种标准...
2025-01-13 09:01:24 124
转载 基于指标+标签的经营分析 Agent 创新实践
导读数势科技研发的数据资产和数据分析相关产品,主要面向零售和金融企业,帮助其进行业务语义层资产构建,为企业提供基于大模型增强的数据分析 AI Agent、智能指标平台、智能标签平台及智能营销平台,从而助力企业提升数字化决策能力,推动企业数字化升级。本文将分享如何基于大模型能力,叠加指标和标签平台能力,构建企业内智能数据分析产品。主要分为以下五部分:1.企业经营分析的难点和挑战2.智能分析的路...
2025-01-08 18:50:45 357
转载 Uber 提升 Presto 集群稳定性的 GC 调优方法
Presto at UberUber 利用开源的 Presto 查询各种数据源,无论是流式还是归档数据。Presto 的多功能性赋予我们做出基于数据的明智商业决策的能力。我们在两个地区运行了大约20个 Presto 集群,总共超过10,000个节点。我们有大约12,000个每周活跃用户,每天运行约500,000个查询,从 HDFS 读取约100 PB 的数据。现在,Presto 被用于查询各种数据...
2025-01-06 09:18:47 423
转载 Alluxio Local Cache 加速 Presto 查询在 Uber 的应用
背景在 Uber,数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如,运营团队在仪表盘等服务中大量使用 Presto;Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外, Presto 还被用于 Uber 的合规部门、增长营销部门和临时数据分析。Uber 的 Presto 规模很大。目前,Presto 有9000个日活跃用户,每天处理500K次查询...
2025-01-02 09:56:29 610
转载 告别 Shuffle!深入探索 Spark 的 SPJ 技术
随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...
2025-01-01 08:34:13 645
转载 Paimon 1.0: Unified Lake Format for Data + AI
摘要:本文整理自阿里云智能开源湖存储负责人李劲松在 Flink Forward Asia 2024 上海站主论坛上的演讲。演讲中提到,Apache Paimon 于今年3月成功成为 Apache 顶级项目,计划发布1.0版本,以期实现数据与AI的统一湖格式,解决数据处理和AI应用中的关键问题。Paimon 与Flink结合,打造了Streaming Lakehouse解决方案,已在阿里巴巴及多个行...
2024-12-29 09:30:28 790
转载 探索Flink动态CEP:杭州银行的实战案例
摘要:本文撰写自杭州银行大数据工程师唐占峰、欧阳武林老师。将介绍 Flink 动态 CEP的定义与核心概念、应用场景、并深入探讨其技术实现并介绍使用方式。主要分为以下几个内容:Flink动态CEP简介Flink动态CEP的应用场景Flink动态CEP的技术实现Flink动态CEP的使用方式杭州银行应用实践金融行业大数据技术正在进入成熟期,数据的实时性在金融的实时监控和分析交易数据以识别洗钱行为、欺...
2024-12-27 09:13:53 881
转载 Spark向量化计算在美团生产环境的实践
Apache Spark 3.3.0新特性详解总第592篇 |2024年第012篇Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎,本文将阐述美团在这一方向的实践和思考。1 什么是向量化计算1.1 并行数据处理:SIMD指令1....
2024-12-26 09:19:25 973
转载 Apache Spark 3.3.0新特性详解
浪尖第一个增强现实小程序Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以...
2024-12-25 08:30:58 994
转载 一块kaggle金牌的冲击有多大?顺利拿下各大Offer
如果以股票投资来形容,那么,选择打kaggle比赛绝对是入股不亏,稳赚不赔。尤其是对于正在学习或者想要留学申请:DS/BA/AA/CS/金融/经济/金工/生物信息/医学工程/公共卫生…等方向的同学来说,kaggle不仅能帮助你强化数据分析能力,也能协助你提升专业知识。无需门槛,不限专业,不限时间和阶段,任何人都可以从零开始准备一场Kaggle比赛,提升数据分析能力,获得项目经验。为了帮助你更好地利...
2024-12-24 10:29:56 1127
转载 数据架构详解
数据架构是指组织和管理数据的方式,包括数据的存储、处理、流动和使用方式。它涉及到如何设计和构建数据模型、数据库系统、数据交换机制等,以确保数据的有效性、安全性和可用性。数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。什么是数据架构?数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI)...
2024-12-24 10:29:56 1014
转载 小米集团基于Apache Doris的OLAP实践
增强现实ARCoder导读本文将分享小米集团基于Apache Doris的OLAP实践。文章将从小米集团OLAP系统的选型历史以及当前的应用现状入手,分享小米数据生态中的Doris以及Doris在小米用户行为分析场景的实践。主要内容包括以下四大部分:全文目录:1. 系统选型及应用现状2. 小米数据生态中的Doris3. 小米用户行为分析实践4. 未来规划分享嘉宾|魏祚 小米数据库内核研发工程师...
2024-12-22 10:11:25 1082
转载 VisionKit之Hand检测
VisionKit从基础库 2.28.0版本开始提供hand检测能力。从 微信>=8.1.0 版本开始提供人手3D关键点检测,作为Hand检测的扩展能力接口。方法定义hand检测有2种使用方法,一种是输入一张静态图片进行检测,另一种是通过摄像头实时检测。1. 静态图片检测通过VKSession.detectHand 接口输入一张图像,算法检测到图像中的手势,然后通过VKSession....
2024-12-22 10:11:25 1058
转载 上点难度:单摄像头深度识别
单摄像头深度识别的原理主要有以下几种:基于几何关系的方法相似三角形原理:利用物体在图像中的成像大小与实际大小以及摄像头的焦距等几何关系来估算深度。假设已知物体的实际尺寸,通过测量其在图像平面上所成的像的尺寸,再结合摄像头的焦距等参数,根据相似三角形的比例关系计算出物体到摄像头的距离。例如,当一个已知实际宽度为的物体,在图像上的像素宽度为,摄像头的焦距为,物体与相机的距离为,运动视差法:当...
2024-12-21 10:58:39 1101
转载 Kafka Streams 在监控场景的应用与实践
作者:来自 vivo 互联网服务器团队- Pang Haiyun介绍 Kafka Streams 的原理架构,常见配置以及在监控场景的应用。一、背景在当今大数据时代,实时数据处理变得越来越重要,而监控数据的实时性和可靠性是监控能力建设最重要的一环。随着监控业务需求的变化和技术的发展,需要能够实时处理和分析庞大的数据流。作为一种流式处理平台,Kafka Streams 为处理实时数据提供了强大的支持...
2024-12-19 09:26:25 1184
转载 AR应用需要了解的基础概念
AR 能力(增强现实能力)定义与原理:AR 是一种将虚拟信息与真实世界融合的技术。它通过识别和跟踪现实世界中的物体、场景或标记,将计算机生成的图像、视频、3D 模型等虚拟元素精确地叠加到用户看到的真实环境中。其原理主要涉及到计算机视觉技术,例如利用特征点匹配来确定现实世界中的位置和姿态,然后根据这些信息将虚拟内容与之对齐。应用场景:教育领域:通过 AR 技术,学生可以观察到 3D 解剖模型叠加在真...
2024-12-19 09:26:25 1218
转载 Blaze:快手自研 Spark 向量化引擎从生产实践到社区开源
导读大家好,我是快手数据平台部的张力,有着十多年的数据架构和数据平台研发经验。也曾在一些大厂,如百度、滴滴、蚂蚁就职过。今天我要给大家分享的是 Spark 向量化技术引擎——Blaze。目前 Blaze 已经在快手大规模地投入生产了。最近我们也在做关于 Blaze 的社区运营,欢迎大家关注和加入。接下来的分享主要由下面六个部分组成:1.关于向量化的介绍2.Apache Spark 与向量化3...
2024-12-17 09:17:01 1330
转载 ARCoder的AR合拍这么玩!
浪尖的ARCoder AR增强现实小程序上线一个半月了,而且用户超过1000了。欢迎点击下面链接访问哦。ARCoder增强现实有很些粉丝反馈使用说明文档比较少,浪尖还是先做些文章和视频,讲解下ARCoder如何用。后面再程序里加些提示,来优化增强现实程序的体验。AR合拍浪尖小程序里面有一个好玩的 AR合拍 功能。比如下面疯狂的派大星:是不是挺好玩的?这里面主要用到了三项技术:AR平面识别。使用的是...
2024-12-17 09:17:01 1262
转载 实时分析的变革力量:下一代流存储准备好了吗?
导读本文整理自阿里云智能 Flink SQL和数据通道负责人、Apache Flink PMC 伍翀(花名:云邪)老师,在 Flink Forward Asia 2024 主会场的分享。主要分享了一种专为流分析设计的新一代存储解决方案——Fluss,并由阿里巴巴开源委员会副主席王峰先生,在 FFA 2024 现场进行了 Fluss 项目的开源。内容分为以下五个部分:1. Kafka 在实时分析场...
2024-12-15 15:16:16 1252
转载 AR投篮|AR镇鬼师说明书
本文简单介绍下浪尖开发的AR-增强现实 小程序的两个AR游戏的使用方法:AR投篮|AR镇鬼师。这些小游戏使用XR-FRAME框架,其核心技术:AR-增强现实的平面识别能力。需要用户寻找平面,点击光标,放置模型,然后才可以开始玩。AR-增强现实的物理能力。球的射击,球跟球框的碰撞,球的落地及滚动,都用了XR-FRAME的物理能力。Blender的3D建模能力。球框,传送门,小鬼模型等都是使用blen...
2024-12-15 15:16:16 1305
转载 AR绘画使用手册
浪尖使用微信的XR-FRAME制作的AR小程序上线一个月,收获了不少用户了。前几天看到评论有人说缺少使用说明文档,所以这几天暂缓更新小程序,着重于打磨文档。AR-增强现实小程序目前来看,主要还是结合AR眼镜是最友好的。结合智能手机等终端的AR应用场景,思前想后也没想道更好的。网络传的都是AR maker识别纹理后展示模型,但是3D模型制作不适合个人,太耗时了;AR特效也是类似,需要引入团队,产品,...
2024-12-12 09:19:50 1153
转载 曹操出行基于Hologres+Flink的实时数仓建设
作者:林震|曹操出行实时计算负责人01曹操出行业务背景介绍曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服...
2024-12-12 09:19:50 1356
转载 深入浅出AR技术原理
浪尖的AR-增强现实小程序上线之后,一直琢磨着,如何做一个AR的知识科普大使,帮助大家了解和使用AR技术,丰富我们的生活。文章和视频正在整理中,目前还是主要是以文章为主,浪尖还没想过在互联网露脸,等后面打磨一套免费AR教程之后,再来露个脸跟大家见个面,欢迎大家体验下浪尖的AR小程序。ARCoder增强现实小程序什么是 AR?增强现实(AR)是一种将虚拟信息或物体叠加到真实世界视图上的技术,通过智能...
2024-12-09 09:44:08 1042
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人