浪尖聊大数据-浪尖
码龄7年
关注
提问 私信
  • 博客:2,212,549
    社区:2
    动态:42
    2,212,593
    总访问量
  • 245
    原创
  • 222,289
    排名
  • 2,626
    粉丝
  • 34
    铁粉

个人简介:弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-08-07
博客简介:

大数据星球-浪尖

博客描述:
主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。
查看详细资料
个人成就
  • 获得1,309次点赞
  • 内容获得496次评论
  • 获得5,728次收藏
  • 代码片获得2,595次分享
创作历程
  • 15篇
    2025年
  • 102篇
    2024年
  • 51篇
    2023年
  • 311篇
    2022年
  • 494篇
    2021年
  • 437篇
    2020年
  • 258篇
    2019年
  • 329篇
    2018年
  • 31篇
    2017年
成就勋章
TA的专栏
  • spark
    98篇
  • flink
    98篇
  • 数据仓库
    127篇
  • kafka
    63篇
  • hbase
    47篇
  • hive
    41篇
  • hadoop
    16篇
  • kylin
    25篇
  • java面试题
    83篇
  • linux
    32篇
  • flume
    3篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

摘要:本文整理自用友畅捷通数据架构师王龙强老师在 Flink Forward Asia 2024 生产实践专场中的分享,主要分为以下五个方面:业务背景数仓建设当前挑战最佳实践未来展望用友旗下的畅捷通信息技术股份有限公司自 2010 年成立以来,经历了从传统软件服务向 SaaS 转型的历程,并逐步构建了自己的云服务平台。在过去两年中,基于 Apache Flink 技术框架,我们在数据仓库(数仓)建...
转载
发布博客 2025.01.25 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink CDC 在货拉拉的落地与实践

作者:陈政羽,目前就职于深圳依时货拉拉科技术有限公司,在公司数据平台组负责湖仓一体平台和实时计算平台相关开发工作,是 Apache Amoro PMC Memeber,ALC ShenZheng Memeber ,也是 Apache Flink 社区贡献者和志愿者,目前在开源社区专注于实时计算方向以及 Amoro 社区海外和国内的运营和开发工作。摘要:今天的文章撰写自陈政羽老师在 Apache A...
转载
发布博客 2025.01.24 ·
130 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何定义一个自己的AI角色

浪尖的ARCoder小程序新版本终于上线了,主打一个AI+AR。希望为每一个用户打造一个专属于自己的AI智能体。最近没咋更新是因为一直在审核资质,AI问答,AI绘画等都是需要资质才能开放给用户的哦。最近浪尖的小程序上线了两大功能:1.AI聊天。可以直接使用大模型聊天,也可以定义自己的AI角色,跟自己的角色聊天哦。2.AI智能体。主要是打造一些AI助手和AI Agent,后面会结合AR技术,让每一个...
转载
发布博客 2025.01.24 ·
123 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

湖仓实时化升级 :Uniflow 构建流批一体实时湖仓

摘要:本文整理自阿里云产品经理李昊哲老师在 Flink Forward Asia 2024 流批一体(一)专场中的分享,主要分为以下三个方面:1. 实时湖仓发展趋势洞察2. 基于Flink搭建流批一体实时湖仓3. MaterializedTable升级流批一体湖仓体验在流批一体的专场,我们主要探讨如何在阿里云上实现流批一体的最优解决方案。具体来说,将向大家介绍 Uniflow 的实时化流批...
转载
发布博客 2025.01.23 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Spark在小米的生产实践

导读Apache Spark 是被广泛使用的大数据离线计算引擎。小米基于Spark3.1 建设了新一代一站式数据开发平台的批处理能力,新平台在作业迁移、性能优化、稳定性优化中都遇到了一些问题。本文将分享其中的典型问题以及小米 Spark 团队的解决方案。本次分享围绕以下五点展开:1.Multiple Catalog 落地与应用2.Hive SQL 迁移 Spark SQL3.离线场景下 S...
转载
发布博客 2025.01.19 ·
362 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一文读懂数据中台架构体系(收藏)

导读:当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,...
转载
发布博客 2025.01.19 ·
681 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎

摘要:本文整理自阿里云智能集团研究员、开源大数据平台负责人王峰(莫问)老师在云栖大会的开源大数据专场上的分享。主要有以下几个内容:1. Apache Flink 已经成为业界流计算事实标准2. Flash 向量化流计算引擎核心技术解读3. Flash 性能测试数据4. Flash在阿里集团的落地效果今天给大家带来的分享是阿里云的开源大数据团队在实时计算领域最新的技术成果——Native 流计算引擎...
转载
发布博客 2025.01.17 ·
438 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于 Flink 进行增量批计算的探索与实践

摘要:本文整理自阿里云高级技术专家 Apache Flink PMC 朱翥老师,在 Flink Forward Asia 2024 流批一体(一)中的分享。内容主要分为三部分:背景介绍工作介绍总结展望本次分享的内容主要分为三个部分。首先,将探讨为何需要增量计算,以及为何选择 Apache Flink 进行增量计算的工作。第二部分将介绍当前的工作进展,以及增量计算的整体设计和关键设计要点。第三部分将...
转载
发布博客 2025.01.16 ·
470 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

横向对比,纵向分析:数据湖仓 vs 数据仓库 vs 数据湖 - 数据平台

几十年来,数据仓库(data warehouses)一直是企业构建数据平台的主要架构方法。然而,随着云、大数据和 Hadoop 等技术的出现,现代数据平台的发展加速,导致数据湖(data lake)和数据湖仓(data lakehouse)等各种选项的出现。根据领先的云提供商发表的文章,数据湖仓代表了新一代的数据平台。但每个数据平台架构师都应该问自己的问题是:data Lakehouse 是我的特...
转载
发布博客 2025.01.15 ·
502 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

年薪96w!数据人的新赛道,我决定入局!

数据人现在真的挺卷的。。。天天处理底层数据,像个打杂的;公司产品都在转AI方向,不了解大模型性能、不懂数据结构……专业技能上毫无竞争力,更别提升职加薪了!做几年数据,还没升职,就先到了“职业天花板”。想凭工作几年积累的经验,跳个槽,结果打开招聘软件一看:不懂AI业务的数据人,都快要被淘汰了!AI数据专家,太吃香了!24年AI产品全面爆发!通义千问、豆包、文心一言等产品让企业迎来新生机,产品模式的变...
转载
发布博客 2025.01.13 ·
584 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

从4.75s到0.6s,我仅动了一条SQL

一、前言软件在持续的开发和维护过程中,会不断添加新功能和修复旧的缺陷,这往往伴随着代码的快速增长和复杂性的提升。若代码库没有得到良好的管理和重构,就可能积累大量的技术债务,包括不一致的设计、冗余代码、过时的库和框架以及不再使用的功能。这些因素都会导致软件结构的脆弱,增加系统出错的可能性,我们俗称为“代码腐化”,持续性的重构是一种好的解决方案。SQL也是我们常用的代码语言,虽然SQL本身作为一种标准...
转载
发布博客 2025.01.13 ·
577 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于指标+标签的经营分析 Agent 创新实践

导读数势科技研发的数据资产和数据分析相关产品,主要面向零售和金融企业,帮助其进行业务语义层资产构建,为企业提供基于大模型增强的数据分析 AI Agent、智能指标平台、智能标签平台及智能营销平台,从而助力企业提升数字化决策能力,推动企业数字化升级。本文将分享如何基于大模型能力,叠加指标和标签平台能力,构建企业内智能数据分析产品。主要分为以下五部分:1.企业经营分析的难点和挑战2.智能分析的路...
转载
发布博客 2025.01.08 ·
802 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Uber 提升 Presto 集群稳定性的 GC 调优方法

Presto at UberUber 利用开源的 Presto 查询各种数据源,无论是流式还是归档数据。Presto 的多功能性赋予我们做出基于数据的明智商业决策的能力。我们在两个地区运行了大约20个 Presto 集群,总共超过10,000个节点。我们有大约12,000个每周活跃用户,每天运行约500,000个查询,从 HDFS 读取约100 PB 的数据。现在,Presto 被用于查询各种数据...
转载
发布博客 2025.01.06 ·
873 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

背景在 Uber,数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如,运营团队在仪表盘等服务中大量使用 Presto;Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外, Presto 还被用于 Uber 的合规部门、增长营销部门和临时数据分析。Uber 的 Presto 规模很大。目前,Presto 有9000个日活跃用户,每天处理500K次查询...
转载
发布博客 2025.01.02 ·
1059 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

告别 Shuffle!深入探索 Spark 的 SPJ 技术

随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...
转载
发布博客 2025.01.01 ·
1097 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Paimon 1.0: Unified Lake Format for Data + AI

摘要:本文整理自阿里云智能开源湖存储负责人李劲松在 Flink Forward Asia 2024 上海站主论坛上的演讲。演讲中提到,Apache Paimon 于今年3月成功成为 Apache 顶级项目,计划发布1.0版本,以期实现数据与AI的统一湖格式,解决数据处理和AI应用中的关键问题。Paimon 与Flink结合,打造了Streaming Lakehouse解决方案,已在阿里巴巴及多个行...
转载
发布博客 2024.12.29 ·
1246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

探索Flink动态CEP:杭州银行的实战案例

摘要:本文撰写自杭州银行大数据工程师唐占峰、欧阳武林老师。将介绍 Flink 动态 CEP的定义与核心概念、应用场景、并深入探讨其技术实现并介绍使用方式。主要分为以下几个内容:Flink动态CEP简介Flink动态CEP的应用场景Flink动态CEP的技术实现Flink动态CEP的使用方式杭州银行应用实践金融行业大数据技术正在进入成熟期,数据的实时性在金融的实时监控和分析交易数据以识别洗钱行为、欺...
转载
发布博客 2024.12.27 ·
1328 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark向量化计算在美团生产环境的实践

Apache Spark 3.3.0新特性详解总第592篇 |2024年第012篇Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎,本文将阐述美团在这一方向的实践和思考。1 什么是向量化计算1.1 并行数据处理:SIMD指令1....
转载
发布博客 2024.12.26 ·
1416 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Spark 3.3.0新特性详解

浪尖第一个增强现实小程序Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以...
转载
发布博客 2024.12.25 ·
1448 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据架构详解

数据架构是指组织和管理数据的方式,包括数据的存储、处理、流动和使用方式。它涉及到如何设计和构建数据模型、数据库系统、数据交换机制等,以确保数据的有效性、安全性和可用性。数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。什么是数据架构?数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI)...
转载
发布博客 2024.12.24 ·
1613 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多