自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(2063)
  • 收藏
  • 关注

转载 小米基于 Apache Paimon 的流式湖仓实践

摘要:本文整理自计算平台软件研发工程师钟宇江老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。内容主要为以下三部分:背景介绍基于 Paimon 构建近实时数据湖仓未来展望01背景介绍第一部分是背景介绍,简单介绍之前的典型的实时数仓的架构,以及引入 Apache Paimon 的原因。1.1 当前实时湖仓计算框架以 Flink + Talos + Iceberg 为...

2025-03-04 09:30:16 838

转载 大数据OLAP引擎底层原理

《OLAP引擎底层原理与设计实践》书籍在大数据时代,OLAP引擎作为处理海量数据的关键技术,其复杂性和技术深度要求我们不断学习和探索。20世纪90年代末,OLAP起源于传统数据库,一直未有起色,2006年后经过近5年的发展,产生了一门新的技术——OLAP大数据分析引擎(简称OLAP引擎)。OLAP结合大数据得以蓬勃发展,在大型互联网公司占据了极其重要的地位,诸如Presto、Impala、Drui...

2025-02-25 09:43:14 1078

转载 抖音集团离线数仓血缘基础能力的构建与应用

导读本文将从底层视角来描述血缘在离线数仓场景的具体应用。主要内容包括以下几大部分:1.背景介绍2.血缘基础能力介绍3.血缘能力在数据发现场景的应用4.血缘能力在数据保护场景的应用01背景介绍企业数据建设面临两大类问题:第一类问题:聚焦于如何有效识别数据传输链路,特别是在各公司离线数仓规模持续扩大的背景下。用户常遇到以下挑战:首先,针对多业务线场景,需要明确某一 Hive 表中包含哪些业务...

2025-02-23 17:14:30 1006

转载 货拉拉Flink CDC实践:稳定性建设与数据入湖新探索

导读本文将分享货拉拉基于 Flink CDC 的建设实践,以及对 CDC 数据入湖的新思考。主要内容包括:1.货拉拉业务背景介绍2.货拉拉为何选择 Flink CDC 作为实时数据同步链路组件3.货拉拉 CDC 生产实践4.CDC 数据入湖和未来展望分享嘉宾|陈政羽 货拉拉 高级大数据开发工程师编辑整理|齐来军内容校对|李瑶出品社区|DataFun01货拉拉业务背景介绍1.货拉拉背景介...

2025-02-21 10:06:08 1700

转载 被 ARCoder 拿捏了!多模畅聊 + 个性定制,超绝

浪尖的小程序 ARCoder 迎来重大升级!如今,它成功接入了豆包、kimi、千问 deepseek 等多款热门大模型,尤其是对 deepseek 的使用体验进行了全面优化,现在用户可以尽情畅聊,无需担忧交流阻碍。ARCoder 的强大不止于此,它还能精准记忆用户习惯,在对话过程中完美记忆上下文,让交流更加自然流畅。同时,用户更能根据自己的喜好定义专属 AI 角色,创建个性化的 AI 智能体,无论...

2025-02-21 10:06:08 1058

转载 Paimon x StarRocks 助力喜马拉雅构建实时湖仓

摘要:本文整理自喜马拉雅数仓专家王琛老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。将介绍喜马拉雅直播的业务现状及数据仓库架构的迭代升级,重点分享基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效。我们通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大...

2025-02-18 09:26:12 1284

转载 ​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

摘要:本文整理自阿里云实时数仓 Hologres 负责人姜伟华老师在 Flink Forward Asia 2024 行业解决方案(二)专场中的分享。主要分为以下三个方面:实时数仓的发展历程从实时数仓到实时湖仓总结01实时数仓的发展历程以一个典型客户案例来回顾实时数仓的发展历程。1.1 第一代实时数仓:Lambda 架构,离线实时分别计算自大数据出现之始,实时数仓采用的就是 Lambda 架构,实...

2025-02-13 10:14:43 1503

转载 4000字!深度解析 DeepSeek 的蒸馏技术

导读昨天,我们详细的介绍了模型蒸馏技术,DeepSeek的蒸馏技术更是这一领域的佼佼者,它不仅攻克了传统蒸馏的瓶颈,还在多模态数据处理等前沿领域取得了突破性进展。本文将深入剖析DeepSeek蒸馏技术的核心原理、创新策略以及未来发展方向,带你一探究竟,领略AI模型优化的奥秘与魅力。1. DeepSeek蒸馏技术概述unsetunset1.1 蒸馏技术定义与原理unsetunset模型蒸馏(Know...

2025-02-13 10:14:43 1398

转载 PyCharm接入DeepSeek实现AI编程

DeepSeek 是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的 AI 模型。DeepSeek-V3 是 DeepSeek 公司推出的最新一代 AI 模型。其前身是 DeepSeek-V2.5,经过持续的优化和升级,V3 版本在性能、速度和成本方面都取得了显著提升。DeepSeek-V3 的发布表明,国产 AI 模型在技术层面已经具备与国际顶尖模型(例如 GPT-4o)竞争的实力。...

2025-02-10 10:03:43 1425

转载 Flink CDC 在阿里云实时计算Flink版的云上实践

摘要:本文整理自阿里云高级开发工程师,Apache Flink Committer 阮航老师在 Flink Forward Asia 2024 生产实践(三)专场中的分享,主要分为以下四个方面:Flink CDC&实时计算FlinkCDC YAML核心功能CDC YAML典型应用场景Demo&未来规划01Flink CDC & 实时计算 Flink1.1...

2025-02-10 10:03:43 1389

转载 Flink 2.0 存算分离状态存储 — ForSt DB

摘要:本文整理自阿里云技术专家,Apache Flink Committer兰兆千老师,在 Flink Forward Asia 2024 核心技术(一)中的分享。主要分为以下几个内容:1. Flink 2.0 存算分离架构介绍2. 全新状态存储内核 — ForSt DB3. 工作进展 & 未来展望Tips:关注「公众号」回复FFA 2024 查看会后资料~01Flink 2.0 存算...

2025-02-08 09:25:22 1643

原创 论大模型的temperature设置的重要性

使用arcoder小程序定义了一个机关枪角色,主要是怼用户。刚开始kimi的temperature=0.3,态度很中性,调整到0.7攻击力十足了!千问是从qwen-plus迁移到qwen-max。目前来看国产大模型都还不错,但是还是推崇DeepSeek r1,最近服务压力太大了,老是提示服务器异常。欢迎使用arcoder体验定义自己的角色。arcoder角色扮演ARCoder一个专于主AR应用,A...

2025-02-07 12:08:52 1705

转载 微财基于Flink构造实时变量池

。摘要:本文整理自微财资深数据开发工程师穆建魁老师在 Flink Forward Asia 2024 行业解决方案(一)专场中的分享。主要分为以下三个部分:微财科技基于 Flink 构建时变量池分享架构选型和开发效率提升策略实时变量池架构与多流关联优化实践01微财科技基于 Flink 构建时变量池分享本次分享的的主题是微财基于 Flink 构造实时变量池。首先,我简单的介绍一下我们的公司。微财科技...

2025-02-02 09:54:28 1463

转载 用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

摘要:本文整理自用友畅捷通数据架构师王龙强老师在 Flink Forward Asia 2024 生产实践专场中的分享,主要分为以下五个方面:业务背景数仓建设当前挑战最佳实践未来展望用友旗下的畅捷通信息技术股份有限公司自 2010 年成立以来,经历了从传统软件服务向 SaaS 转型的历程,并逐步构建了自己的云服务平台。在过去两年中,基于 Apache Flink 技术框架,我们在数据仓库(数仓)建...

2025-01-25 09:17:12 2019

转载 Flink CDC 在货拉拉的落地与实践

作者:陈政羽,目前就职于深圳依时货拉拉科技术有限公司,在公司数据平台组负责湖仓一体平台和实时计算平台相关开发工作,是 Apache Amoro PMC Memeber,ALC ShenZheng Memeber ,也是 Apache Flink 社区贡献者和志愿者,目前在开源社区专注于实时计算方向以及 Amoro 社区海外和国内的运营和开发工作。摘要:今天的文章撰写自陈政羽老师在 Apache A...

2025-01-24 13:05:32 2161

转载 如何定义一个自己的AI角色

浪尖的ARCoder小程序新版本终于上线了,主打一个AI+AR。希望为每一个用户打造一个专属于自己的AI智能体。最近没咋更新是因为一直在审核资质,AI问答,AI绘画等都是需要资质才能开放给用户的哦。最近浪尖的小程序上线了两大功能:1.AI聊天。可以直接使用大模型聊天,也可以定义自己的AI角色,跟自己的角色聊天哦。2.AI智能体。主要是打造一些AI助手和AI Agent,后面会结合AR技术,让每一个...

2025-01-24 13:05:32 2250

转载 湖仓实时化升级 :Uniflow 构建流批一体实时湖仓

摘要:本文整理自阿里云产品经理李昊哲老师在 Flink Forward Asia 2024 流批一体(一)专场中的分享,主要分为以下三个方面:1. 实时湖仓发展趋势洞察2. 基于Flink搭建流批一体实时湖仓3. MaterializedTable升级流批一体湖仓体验在流批一体的专场,我们主要探讨如何在阿里云上实现流批一体的最优解决方案。具体来说,将向大家介绍 Uniflow 的实时化流批...

2025-01-23 11:31:37 1945

转载 Apache Spark在小米的生产实践

导读Apache Spark 是被广泛使用的大数据离线计算引擎。小米基于Spark3.1 建设了新一代一站式数据开发平台的批处理能力,新平台在作业迁移、性能优化、稳定性优化中都遇到了一些问题。本文将分享其中的典型问题以及小米 Spark 团队的解决方案。本次分享围绕以下五点展开:1.Multiple Catalog 落地与应用2.Hive SQL 迁移 Spark SQL3.离线场景下 S...

2025-01-19 22:06:46 2277

转载 一文读懂数据中台架构体系(收藏)

导读:当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,...

2025-01-19 09:11:45 5048

转载 实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎

摘要:本文整理自阿里云智能集团研究员、开源大数据平台负责人王峰(莫问)老师在云栖大会的开源大数据专场上的分享。主要有以下几个内容:1. Apache Flink 已经成为业界流计算事实标准2. Flash 向量化流计算引擎核心技术解读3. Flash 性能测试数据4. Flash在阿里集团的落地效果今天给大家带来的分享是阿里云的开源大数据团队在实时计算领域最新的技术成果——Native 流计算引擎...

2025-01-17 09:42:43 2057

转载 基于 Flink 进行增量批计算的探索与实践

摘要:本文整理自阿里云高级技术专家 Apache Flink PMC 朱翥老师,在 Flink Forward Asia 2024 流批一体(一)中的分享。内容主要分为三部分:背景介绍工作介绍总结展望本次分享的内容主要分为三个部分。首先,将探讨为何需要增量计算,以及为何选择 Apache Flink 进行增量计算的工作。第二部分将介绍当前的工作进展,以及增量计算的整体设计和关键设计要点。第三部分将...

2025-01-16 08:00:52 1748

转载 横向对比,纵向分析:数据湖仓 vs 数据仓库 vs 数据湖 - 数据平台

几十年来,数据仓库(data warehouses)一直是企业构建数据平台的主要架构方法。然而,随着云、大数据和 Hadoop 等技术的出现,现代数据平台的发展加速,导致数据湖(data lake)和数据湖仓(data lakehouse)等各种选项的出现。根据领先的云提供商发表的文章,数据湖仓代表了新一代的数据平台。但每个数据平台架构师都应该问自己的问题是:data Lakehouse 是我的特...

2025-01-15 08:03:08 1859

转载 年薪96w!数据人的新赛道,我决定入局!

数据人现在真的挺卷的。。。天天处理底层数据,像个打杂的;公司产品都在转AI方向,不了解大模型性能、不懂数据结构……专业技能上毫无竞争力,更别提升职加薪了!做几年数据,还没升职,就先到了“职业天花板”。想凭工作几年积累的经验,跳个槽,结果打开招聘软件一看:不懂AI业务的数据人,都快要被淘汰了!AI数据专家,太吃香了!24年AI产品全面爆发!通义千问、豆包、文心一言等产品让企业迎来新生机,产品模式的变...

2025-01-13 09:01:24 1431

转载 从4.75s到0.6s,我仅动了一条SQL

一、前言软件在持续的开发和维护过程中,会不断添加新功能和修复旧的缺陷,这往往伴随着代码的快速增长和复杂性的提升。若代码库没有得到良好的管理和重构,就可能积累大量的技术债务,包括不一致的设计、冗余代码、过时的库和框架以及不再使用的功能。这些因素都会导致软件结构的脆弱,增加系统出错的可能性,我们俗称为“代码腐化”,持续性的重构是一种好的解决方案。SQL也是我们常用的代码语言,虽然SQL本身作为一种标准...

2025-01-13 09:01:24 1429

转载 基于指标+标签的经营分析 Agent 创新实践

导读数势科技研发的数据资产和数据分析相关产品,主要面向零售和金融企业,帮助其进行业务语义层资产构建,为企业提供基于大模型增强的数据分析 AI Agent、智能指标平台、智能标签平台及智能营销平台,从而助力企业提升数字化决策能力,推动企业数字化升级。本文将分享如何基于大模型能力,叠加指标和标签平台能力,构建企业内智能数据分析产品。主要分为以下五部分:1.企业经营分析的难点和挑战2.智能分析的路...

2025-01-08 18:50:45 1968

转载 Uber 提升 Presto 集群稳定性的 GC 调优方法

Presto at UberUber 利用开源的 Presto 查询各种数据源,无论是流式还是归档数据。Presto 的多功能性赋予我们做出基于数据的明智商业决策的能力。我们在两个地区运行了大约20个 Presto 集群,总共超过10,000个节点。我们有大约12,000个每周活跃用户,每天运行约500,000个查询,从 HDFS 读取约100 PB 的数据。现在,Presto 被用于查询各种数据...

2025-01-06 09:18:47 1520

转载 Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

背景在 Uber,数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如,运营团队在仪表盘等服务中大量使用 Presto;Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外, Presto 还被用于 Uber 的合规部门、增长营销部门和临时数据分析。Uber 的 Presto 规模很大。目前,Presto 有9000个日活跃用户,每天处理500K次查询...

2025-01-02 09:56:29 1596

转载 告别 Shuffle!深入探索 Spark 的 SPJ 技术

随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...

2025-01-01 08:34:13 1827

转载 Paimon 1.0: Unified Lake Format for Data + AI

摘要:本文整理自阿里云智能开源湖存储负责人李劲松在 Flink Forward Asia 2024 上海站主论坛上的演讲。演讲中提到,Apache Paimon 于今年3月成功成为 Apache 顶级项目,计划发布1.0版本,以期实现数据与AI的统一湖格式,解决数据处理和AI应用中的关键问题。Paimon 与Flink结合,打造了Streaming Lakehouse解决方案,已在阿里巴巴及多个行...

2024-12-29 09:30:28 1860

转载 探索Flink动态CEP:杭州银行的实战案例

摘要:本文撰写自杭州银行大数据工程师唐占峰、欧阳武林老师。将介绍 Flink 动态 CEP的定义与核心概念、应用场景、并深入探讨其技术实现并介绍使用方式。主要分为以下几个内容:Flink动态CEP简介Flink动态CEP的应用场景Flink动态CEP的技术实现Flink动态CEP的使用方式杭州银行应用实践金融行业大数据技术正在进入成熟期,数据的实时性在金融的实时监控和分析交易数据以识别洗钱行为、欺...

2024-12-27 09:13:53 1977 1

转载 Spark向量化计算在美团生产环境的实践

Apache Spark 3.3.0新特性详解总第592篇 |2024年第012篇Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎,本文将阐述美团在这一方向的实践和思考。1 什么是向量化计算1.1 并行数据处理:SIMD指令1....

2024-12-26 09:19:25 1977

转载 Apache Spark 3.3.0新特性详解

浪尖第一个增强现实小程序Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以...

2024-12-25 08:30:58 2250

转载 一块kaggle金牌的冲击有多大?顺利拿下各大Offer

如果以股票投资来形容,那么,选择打kaggle比赛绝对是入股不亏,稳赚不赔。尤其是对于正在学习或者想要留学申请:DS/BA/AA/CS/金融/经济/金工/生物信息/医学工程/公共卫生…等方向的同学来说,kaggle不仅能帮助你强化数据分析能力,也能协助你提升专业知识。无需门槛,不限专业,不限时间和阶段,任何人都可以从零开始准备一场Kaggle比赛,提升数据分析能力,获得项目经验。为了帮助你更好地利...

2024-12-24 10:29:56 2542

转载 数据架构详解

数据架构是指组织和管理数据的方式,包括数据的存储、处理、流动和使用方式。它涉及到如何设计和构建数据模型、数据库系统、数据交换机制等,以确保数据的有效性、安全性和可用性。数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。什么是数据架构?数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI)...

2024-12-24 10:29:56 2076

转载 小米集团基于Apache Doris的OLAP实践

增强现实ARCoder导读本文将分享小米集团基于Apache Doris的OLAP实践。文章将从小米集团OLAP系统的选型历史以及当前的应用现状入手,分享小米数据生态中的Doris以及Doris在小米用户行为分析场景的实践。主要内容包括以下四大部分:全文目录:1. 系统选型及应用现状2. 小米数据生态中的Doris3. 小米用户行为分析实践4. 未来规划分享嘉宾|魏祚 小米数据库内核研发工程师...

2024-12-22 10:11:25 1779

转载 VisionKit之Hand检测

VisionKit从基础库 2.28.0版本开始提供hand检测能力。从 微信>=8.1.0 版本开始提供人手3D关键点检测,作为Hand检测的扩展能力接口。方法定义hand检测有2种使用方法,一种是输入一张静态图片进行检测,另一种是通过摄像头实时检测。1. 静态图片检测通过VKSession.detectHand 接口输入一张图像,算法检测到图像中的手势,然后通过VKSession....

2024-12-22 10:11:25 1795

转载 上点难度:单摄像头深度识别

单摄像头深度识别的原理主要有以下几种:基于几何关系的方法相似三角形原理:利用物体在图像中的成像大小与实际大小以及摄像头的焦距等几何关系来估算深度。假设已知物体的实际尺寸,通过测量其在图像平面上所成的像的尺寸,再结合摄像头的焦距等参数,根据相似三角形的比例关系计算出物体到摄像头的距离。例如,当一个已知实际宽度为的物体,在图像上的像素宽度为,摄像头的焦距为,物体与相机的距离为,运动视差法:当...

2024-12-21 10:58:39 1773

转载 Kafka Streams 在监控场景的应用与实践

作者:来自 vivo 互联网服务器团队- Pang Haiyun介绍 Kafka Streams 的原理架构,常见配置以及在监控场景的应用。一、背景在当今大数据时代,实时数据处理变得越来越重要,而监控数据的实时性和可靠性是监控能力建设最重要的一环。随着监控业务需求的变化和技术的发展,需要能够实时处理和分析庞大的数据流。作为一种流式处理平台,Kafka Streams 为处理实时数据提供了强大的支持...

2024-12-19 09:26:25 1433

转载 AR应用需要了解的基础概念

AR 能力(增强现实能力)定义与原理:AR 是一种将虚拟信息与真实世界融合的技术。它通过识别和跟踪现实世界中的物体、场景或标记,将计算机生成的图像、视频、3D 模型等虚拟元素精确地叠加到用户看到的真实环境中。其原理主要涉及到计算机视觉技术,例如利用特征点匹配来确定现实世界中的位置和姿态,然后根据这些信息将虚拟内容与之对齐。应用场景:教育领域:通过 AR 技术,学生可以观察到 3D 解剖模型叠加在真...

2024-12-19 09:26:25 1893

转载 Blaze:快手自研 Spark 向量化引擎从生产实践到社区开源

导读大家好,我是快手数据平台部的张力,有着十多年的数据架构和数据平台研发经验。也曾在一些大厂,如百度、滴滴、蚂蚁就职过。今天我要给大家分享的是 Spark 向量化技术引擎——Blaze。目前 Blaze 已经在快手大规模地投入生产了。最近我们也在做关于 Blaze 的社区运营,欢迎大家关注和加入。接下来的分享主要由下面六个部分组成:1.关于向量化的介绍2.Apache Spark 与向量化3...

2024-12-17 09:17:01 1950

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除