- 博客(1204)
- 资源 (291)
- 收藏
- 关注
原创 从批处理到流式处理:加速 Uber 数据湖中的数据实时性
业务影响涵盖实验、风险检测、个性化和运营分析——在这些领域,陈旧的数据会延缓创新,降低响应能力,并限制做出主动的、数据驱动决策的能力。我们在 Uber 一些最大的数据集上证明了它的性能,设计了用于操作数千个作业的控制平面,并解决了流处理特有的挑战,如小文件生成、分区倾斜和检查点同步。我们通过运维调优(将并行度与分区对齐,调整拉取参数)、连接器级别的公平性(轮询、对重负载分区进行暂停/恢复、每个分区的配额)以及改进的可观测性(每个分区的滞后指标、感知倾斜的自动扩缩容和针对性警报)解决了这个问题。
2025-12-12 10:00:06
960
原创 Pinterest 人工智能平台十年发展历程
赋能(Enablement)、效率(efficiency)和速度(velocity)相互倍增(multiply each other),多年后我们发现,当我们想要使用更复杂的数据源、特征转换和模型时,这些权衡就显现出来了。这篇回顾着眼于我们吸取的经验教训,希望这些教训能引起其他处于类似旅程中的公司的共鸣。:一个由两名工程师组成的微小团队试图统一规模大得多的团队的堆栈,并认识到决定采纳的是。的快速发展带来了新的能力,但也带来了新的限制。方面遇到了困难:庞大的作业图、深层的继承链以及不断增长的配置标志,其中。
2025-12-09 08:29:21
705
转载 很严重了,大家别轻易离职。。
只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。懂数据、了解AI业务,才能通过数据不断推动公司AI业务的优化与迭代!详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!AI产品岗必懂的AI技术:RAG、Agent、Transformer架构、预训练等!既懂数据、又了解AI业务的数据人,势必是未来更抢手个和更具竞争力的AI数据人才。本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。华为、百度、字节等大厂现在都在高薪挖人,有相关经验的,就能给到!
2025-12-08 08:32:41
29
转载 千问Text2SQL:两种迥异的技术路线对比
第一篇(-QNjLRzgTLHBeiIgW8s1iA):典型的 “LLM + RAG + 中间 DSL” 路线,依赖大模型理解+检索增强生成,中间层是结构化查询语言(如 MQL),但仍需 LLM 生成该中间语言。第二篇(pdAegb0iN9QdP48NfEJI7A,润乾 NLQ):提出 “规范文本 + 规则引擎 + 可确认中间层” 的三阶段架构,大幅弱化对 LLM 的依赖,将核心逻辑下沉到可解释、可维护的规则系统中。从自然语言到DSL是很困难的,需要LLM支持,但反过来应该可以用相对简单的规则引擎实现了。
2025-12-04 08:31:28
80
原创 Apache XTable:打破数据湖格式孤岛的“通用翻译官”
一旦你选择了一种格式,往往意味着你需要绑定特定的计算引擎,或者需要昂贵的 ETL 过程才能在不同工具间迁移数据。XTable 可以作为中间件,将这些异构数据源“虚拟化”为统一的格式,供全公司的数据目录(Data Catalog)管理,而无需物理搬运数据。你的 S3 桶里不仅有原始的 Hudi 结构,旁边还通过 XTable 生成了合法的 Iceberg 和 Delta 元数据文件。从单一的格式供应商手中夺回,交还给了用户,实现了真正的“Write Once, Read Anywhere”。
2025-12-01 08:32:20
943
原创 Mooncake: 基于 Apache Iceberg 构建的实时存储引擎
对象存储是数据的事实来源(权威存储)。Mooncake 支持将传统上需要专用数据库(如搜索场景的 Elasticsearch、分析场景的 ClickHouse、AI 场景的向量数据库)处理的工作负载,直接在 Iceberg 数据湖上运行 —— 从而在单一存储层实现实时工作负载与分析工作负载的统一。Mooncake 的解决方案:定期写入 Iceberg 元数据,同时提供兼容 Iceberg 的 API,支持在元数据提交前 “读取最新版本”—— 通过动态生成最新元数据和数据文件,实现亚秒级表数据新鲜度。
2025-11-26 18:55:27
281
转载 VeloxCon China 2025 盛会即将在北京开幕
作为 Velox 社区的顶级技术盛会,本届大会将汇聚来自 Meta、蚂蚁集团、IBM、英特尔、阿里巴巴、腾讯、小米、小红书等团队的核心开发者,通过分享一系列生产环境下的实战经验与架构演进,完整呈现 Velox 驱动下一代数据基础设施的技术全景与社区生态。在数据驱动一切的时代,从交互式商业智能、大规模 AI 训练,到高并发实时分析与持续流处理,多样化的现代工作负载正不断挑战传统数据引擎的性能极限。大会议程现已发布,让我们先睹为快!
2025-11-23 20:26:11
73
转载 谷歌发布 Gemini 3:最智能的模型,助你将任何想法变为现实
与此同时,Gemini 3今日也将登陆Gemini应用,面向AI Studio与Vertex AI(顶点AI)的开发者开放,并集成至我们全新的智能体开发平台Google Antigravity(谷歌反重力)——更多细节将在下文介绍。得益于我们在AI创新领域差异化的全栈式布局(从领先的基础设施,到世界级的研究成果、模型与工具,再到触达全球数十亿用户的产品),我们得以以前所未有的速度向世界交付先进的AI能力。如今,我们正式推出Gemini 3(Gemini 3)——这是我们目前最智能的模型。
2025-11-19 07:47:31
130
转载 深入探索 Hudi 索引子系统(上)
Hudi 元数据表是一个 MOR 表,同时充当多模式索引子系统,按索引类型(如 files/、column_stats/、partition_stats/)进行物理分区,基础文件采用 HFile(类 SSTable)格式 —— 该设计能满足湖仓规模下索引所需的 “快速点查询” 和 “高效键前缀批量扫描” 需求;:读取流程中,files 索引枚举候选分区 / 文件,partition stats 剪裁无关分区,column stats 剪裁无关文件,最终仅读取满足查询需求的最小文件集合。
2025-11-13 13:44:40
108
原创 200 万个 Spark 作业从 2.4 升级到 3.3 在 Uber 的实践
迁移过程中开发的 Iron Dome 等框架,为 Spark 应用程序提供了通用沙箱环境,为未来的 Spark 版本升级铺平道路。Apache®、Apache Spark™、Apache Spark SQL™、Apache Hive™、Apache Hadoop®、Apache Gluten™、Apache Kafka® 及星形标志均为 Apache 软件基金会在美国及其他国家 / 地区的注册商标或商标。:拦截器会将任务写入的表、访问的路径等信息,以遥测数据形式发送至消息队列,用于与生产数据进行对比验证。
2025-11-12 13:19:43
1027
原创 Kafka 作为事件流的商业模式正在消亡
在10亿美元的总收入中,这很难成为公司增长放缓的救星。更糟糕的是,这24%的增长率仅仅是针对他们的云产品。——Aiven 最近承认,大多数 Kafka 工作负载都很小(< 10MB/s 甚至 < 1MB/s),而 Kafka 的开销对于这种规模较小的工作负载来说太高了。他们知名度很高,赢得了众多开发者的青睐,并且正在向一个成熟的、价值数十亿美元的市场(Kafka)销售产品。从图中可以看出,Confluent 销售的产品的潜在市场总规模似乎比 Snowflake/Databricks 销售的产品要小得多。
2025-11-11 11:38:53
1266
转载 最近,数据的招聘市场已经疯掉了。。。
只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!
2025-11-03 08:02:59
56
原创 使用 Velox 和 NVIDIA cuDF 加速大规模数据分析
如图3所示,Presto在使用新的基于UCX的exchange时在GPU上实现了高效性能,尤其是在GPU之间提供了高带宽节点内连接的情况下。如图2所示,在 SF1,000下,我们观察到Presto C++在AMD 7965WX上的运行时间为1,246秒,Presto在NVIDIA RTX PRO 6000 Blackwell工作站上的运行时间为133.8秒,Presto在NVIDIA GH200 Grace Hopper超级芯片上的运行时间为99.9秒。集群上剩余的CPU容量可用于其他查询或工作负载。
2025-10-21 18:59:42
1155
转载 StarRocks Connect 2025 | 技术大咖共话 AI 原生时代的数据分析新范式
连接全球数据生态的能力,并从电商、在线旅游、跨国协作、酒店娱乐等多个真实业务场景中,学习头部企业的最佳实践。,让每一位来宾都能在轻松愉快的氛围中,与讲师和同行深入探讨技术话题,结识志同道合的伙伴,碰撞出新的思想火花。等知名企业的一线技术专家,以及多位行业领袖,致力于将全球前沿的技术视野与本土化的深度实践相结合。,在绿草如茵的环境中,参与者可以通过有趣的游戏与技术大咖进行面对面交流。的核心技术架构,并首次披露其全球社区的最新动态与未来技术路线图,分享。技术的浪潮席卷全球,数据基础设施正迎来深刻变革。
2025-09-02 08:31:19
176
原创 为什么 Iceberg 社区选择遗弃 MoR 中的 positional delete?
Iceberg 虽通过快照隔离(snapshot isolation)机制确保数据一致性(在重写提交前不会丢弃删除文件,直至旧快照过期),但实践中仍存在"悬空删除"(dangling deletes)问题——元数据中残留引用已不存在文件的删除条目。在本示例中,若需读取分区 P1 内的文件 A,查询仍须加载合并删除文件(该文件包含 A 和 B 的删除条目),随后再丢弃与 B 相关的无关条目。即便采用分区范围删除优化单个分区的文件数量,巨量分区(每个至少一个删除文件)仍导致文件总数爆炸式增长。
2025-07-30 19:27:55
1073
原创 Databricks收购Fennel:实时计算与AI的“终极合体”,数据平台战争进入新纪元?
即便在生成式AI爆发的今天,实时、个性化的特征仍是提升大语言模型(LLM)应用效果的关键——比如在推荐系统中,实时用户偏好数据能显著增强提示词(prompt)的精准度。此次收购后,Fennel的能力将深度集成至Databricks Data Intelligence Platform,客户可一站式完成数据湖仓管理、特征工程、模型训练与实时推理,彻底告别复杂的基础设施运维。Fennel支持批处理、流式、实时数据的统一计算,消除训练与线上服务的特征差异(即“训练-服务偏差”),确保模型从开发到部署的平滑过渡。
2025-04-19 18:32:15
607
原创 一文掌握 Velox orderby 算子的排序算法
通过前一步,我们已经算出哪些列支持规范化,以及每行规范化后的字符串占用多少字节(entrySize,注意,实际上列的数据规范化后的大小应该为 normalizedBufferSize,但是为了处理不支持规范化列的比较,所以每一行规范化后的字符串后面还会加上当前行在 rowContainer 里面的地址,所以 entrySize = normalizedBufferSize + 8)。如果直接把这个数据写到规范化的字符串里面,二进制 00010010 将被写到字符串的前面,那么比较的结果将是不对的。
2025-03-31 09:26:40
795
转载 2024 年数据库回顾:一年综述
本文原文来自:Databases in 2024: A Year in Review // Blog // Andy Pavlo - Carnegie Mellon University就像一颗子弹击中你的头顶,我回来了,要给你带来我关于数据库领域发生的事情的年度综述。是的,我曾经在OtterTune博客上写过这篇文章,但公司已经倒闭了(安息吧)。我现在在我的教授博客上发表这篇文章。过去的一年有很...
2025-01-03 08:34:38
656
原创 告别 Shuffle!深入探索 Spark 的 SPJ 技术
随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...
2024-12-26 18:02:22
1874
原创 在上千万行的 Java 代码迁移到 Kotlin 在 Meta 的实践
在当今数字化飞速发展的时代,软件编程语言的抉择对科技企业的开发效率与项目质量有着至关重要的影响。Meta 公司作为科技领域的巨头,做出了将大量Java代码迁移到Kotlin的重大决策。Meta之所以选择Kotlin,是因为Kotlin相对Java具有众多显著优势。Kotlin支持可空性和函数式编程,这使得代码在处理空值和逻辑处理上更加简洁高效;其代码更为简短,有助于提高开发效率;还能创建特定领域语...
2024-12-25 09:01:35
791
原创 Magnet: 基于推送的大规模数据处理Shuffle服务
本文翻译自:《Magnet: Push-based Shuffle Service for Large-scale Data Processing》摘要在过去的十年中,Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样,随机Shuffle操作(即中间数据的全部对全部传输)在 Spark 中起着重要作用。在 LinkedIn,随着数据量...
2024-12-24 12:15:23
674
转载 Spark on Kubernetes 在多点DMALL的探索实践
摘要:多点在云原生建设中,全力推动Spark on k8s及大数据调度平台、日志采集、集群监控等组件的升级迭代,打造出了一套云中立,更具性价比的存算分离架构体系,平稳支撑了公司To B业务的开展。一、背景1.1 Hadoop 生态:短板凸显多点 DMALL 最初使用的是传统的 Hadoop 生态搭建大数据集群。使用 HDFS + Hive + Spark + Flink + Yarn 的经典组合,...
2024-11-08 10:49:57
432
转载 Elasticsearch 在滴滴的应用与实践
滴滴 Elasticsearch简介简介Elasticsearch 是一个基于 Lucene 构建的开源、分布式、RESTful 接口的全文搜索引擎,其每个字段均可被索引,且能够横向扩展至数以百计的服务器存储以及处理 TB 级的数据,其可以在极短的时间内存储、搜索和分析大量的数据。滴滴 ES 发展至今,承接了公司绝大部分端上文本检索、少部分日志场景和向量检索场景,包括地图 POI 检索、订单检索...
2024-09-13 18:15:20
641
转载 打造运营商实时分析平台——浩鲸科技 ByConity 应用实践
浩鲸科技 2003 年创建,为运营商提供高质量信息服务,在全球有多个研发中心。浩鲸科技正在进行业务全球化的布局,目前海外市场占比已接近 50%。国外运营商的用户规模小,用户业务量不高,运营商主机数量少。由于业务特点,其对独立小型部署需求较多。ByConity 给浩鲸科技提供了对应产品能力,帮助其解决了产品痛点,更好地满足了客户需求。本文将介绍浩鲸科技在电信运营商场景下使用 ByConity 进行实...
2024-08-02 19:14:50
256
转载 强烈建议企业数字化引入AI大模型!
如果你问:2024年,程序员必须掌握哪项技术?AI一定是榜首!从去年起,AI大模型已是程序员的必备工具——编程提效:编写更快,程序更稳定;代码更优:测试数、BUG对应减少;项目爆单:训练模型,接&做项目更快;输入prompt指令和搭建AI大模型开发框架,AI就能迅速批量完成工作,甚至比人工更出色。知名大厂都在布局AI市场,懂AI的程序员年薪甚至翻到80w-9...
2024-07-25 11:02:45
196
转载 2024企业级BI平台白皮书(附下载)
《企业级BI平台白皮书》是观远数据发布的业内首部聚焦规模型企业数字化转型,探寻BI平台企业级能力建设方法论的白皮书,也是观远数据基于多年来与超过400家先进企业携手数字化实践的经验沉淀与应对方案整合。白皮书从规模型企业数字化转型特有的挑战入手,针对企业丰富的数字化触点、规模化能力建设、智能决策、组织升级需求进行分析,梳理了规模化企业对于“企业级BI”能力的要求,建设性地提出了企业级BI“五力模型”...
2024-07-08 16:31:44
350
转载 强烈建议数据人学习AI大模型!
国内大模型“落地战”终于打响!一些大模型企业开始赚钱了最高单个项目金额近2亿元人民币除科大讯飞、阿里云、华为等巨头公司之外,很多中小企业也陆续进场各个机构与企业开始大刀阔斧招揽 AI 人才甚至开出80k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后...
2024-06-30 21:58:03
217
原创 深入了解 Presto 原生 C++ 查询引擎-Presto 2.0
在过去三年中,来自Meta、Ahana(现为IBM)、Intel和字节跳动的工程师团队联手打造了一款名为Velox的先进执行引擎,它的设计目标是可以在各种计算引擎之间灵活组合使用。在这个过程中,他们开发出了基于C++的Presto worker,这是一个全新的查询执行引擎,它基于Velox构建,此前被称为Project Prestissimo,现在则被命名为Presto 2.0。我们很高兴地宣布,...
2024-06-27 19:32:30
1291
转载 Spark向量化计算在美团生产环境的实践
总第592篇 |2024年第012篇Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎,本文将阐述美团在这一方向的实践和思考。1 什么是向量化计算1.1 并行数据处理:SIMD指令1.2 向量化执行框架:数据局部性与运行时开销1....
2024-06-20 21:11:17
433
转载 取代数据岗,中国又一新兴岗位在崛起!这才是数字化人未来5年最好的就业方向!...
随着GPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑数据人核心竞争力(不限年龄!不限岗...
2024-06-12 18:29:56
216
原创 Uber 提升 Presto 集群稳定性的 GC 调优方法
Presto at UberUber 利用开源的 Presto 查询各种数据源,无论是流式还是归档数据。Presto 的多功能性赋予我们做出基于数据的明智商业决策的能力。我们在两个地区运行了大约20个 Presto 集群,总共超过10,000个节点。我们有大约12,000个每周活跃用户,每天运行约500,000个查询,从 HDFS 读取约100 PB 的数据。现在,Presto 被用于查询各种数据...
2024-06-06 19:25:32
1111
原创 重磅消息,Databricks 收购了 Apache Iceberg背后公司 Tabular
旧金山 — 2024年6月4日 — 专注于数据和人工智能的 Databricks 公司今天宣布,已经决定收购由 Ryan Blue、Daniel Weeks 和 Jason Reid 创办的数据管理公司 Tabular。这次收购汇集了 Apache Iceberg™ 和 Linux Foundation Delta Lake 的创始人,这两种开源 lakehouse 格式是目前领先的数据存储格式。...
2024-06-05 09:29:47
1430
转载 很严重,大家做好准备吧......
2024开年至今多家企业被曝裁员又降薪真搞得人心惶惶,坐立难安相反,作为席卷全球的新概念ESG真的是火爆了整个数据行业圈特别是政策要求各大企业强制披露ESG报告更是带来了巨大的市场和岗位需求ESG报告里最重要的一块就是数据披露和数字化建设这对于数据管理和数字化从业是一个重要的机会目前国央企、各大厂和实体企业都在大力布局甚至在行业圈内成为大佬们的热门话题目前行业裁员又降薪下大家冲一冲这个新兴领域01...
2024-06-04 10:26:00
261
转载 恭喜了!全体数据人彻底狂欢吧!这个好消息来得太及时!
【AI大模型人才培养计划】适用所有程序员2024年,AI在全球市场全面爆发。新的算法、模型和应用场景不断涌现,各个行业大模型应用激增,AI相关岗位需求增长超300%。无论是Google、百度、阿里等互联网巨头,还是中小型的科技公司都开出高于普通程序猿5倍薪资挖掘AI大模型人才。随着技术日新月异,各行各业对AI产品需求会不断攀升,大模型人才将更炙手可热。现在开始入局AI风口,很快就年薪100W!为帮...
2024-05-17 18:24:18
163
转载 最近这情况,奉劝大家还是多做一手准备吧
随着GPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑数据人核心竞争力(不限年龄!不限岗...
2024-05-07 12:09:41
168
转载 裁员了,很严重,大家做好准备吧!
2024刚开年,多家企业被曝裁员又降薪,真的是搞得人心惶惶,坐立难安。相反,作为席卷全球的新概念,ESG也真的是火爆了整个行业圈,尤其是的数据分析领域。特别是随着政策要求各大企业强制披露ESG报告,更是带来了巨大的市场和岗位需求,“ESG月薪炒到15万”的话题,更是不绝于耳。数据人作为践行ESG最直接的关联者,企业的ESG布局也是随着政策上涨,ESG数据分析岗几乎一夜之间成了最香的那一个。包括国央...
2024-04-24 12:36:05
263
转载 ByConity 替换 ClickHouse 构建 OLAP 数据平台,资源成本大幅降低
ByConity 是字节跳动开源的云原生数据仓库,在满足数仓用户对资源弹性扩缩容,读写分离,资源隔离,数据强一致性等多种需求的同时,提供优异的查询,写入性能。GitHub |https://github.com/ByConity/ByConity作者|程伟,MetaAPP 大数据研发工程师MetaApp 是国内领先的游戏开发与运营商,专注移动端信息高效分发,致力于构建面向全年龄段的虚拟世界。截至 ...
2024-04-23 08:30:11
245
转载 ByteHouse如何将OLAP性能提升百倍?
点击阅读原文,即可下载《云原生数据仓库ByteHouse性能白皮书(企业版)》在数据处理和分析的领域,提升查询效率始终是一项关键挑战。对于 OLAP 来说,性能的关键需求在于能支持实时分析,应对复杂查询,提供快速响应,并具备良好的可扩展性。这些方面,对于满足高效、准确的数据分析需求至关重要。火山引擎正式发布《云原生数据仓库ByteHouse性能白皮书》,白皮书通过使用 SSB 100G、TPC-H...
2024-04-19 18:30:03
217
转载 4月,一个新方向爆了,96k很稳...
国内AI赛道又爆了!继科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!人才市场上AI大模型工程师“一将难求”!甚至开出80k*16的高薪,挖掘AI大模型人才!如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?与其焦虑……不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!????知乎知学堂特邀你加入:行业前沿资源——AI大模型公开课已为本...
2024-04-14 18:54:50
151
转载 月薪已炒到15w?中国又一新兴领域在崛起!这才是数据人未来5年最好的就业方向!...
作为席卷全球的新概念!ESG这次真的火爆了整个互联网圈!“ESG拯救天坑专业”“靠ESG买下一套房”“ESG岗位月薪15万”的话题挠动了很多互联网人的心!让人忍不住发问,“这是什么神仙职业?”一、什么是ESG?如何快速“破局”入行!要弄懂这个“神仙”岗位,首先要明白什么是ESG。一句话介绍什么是ESG?ESG是一种关注企业环境(Environmental)、社会(Social)、治理(Govern...
2024-03-12 12:06:36
177
Scala Cheat Sheet
2018-07-04
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
Foundations of streaming SQL
2018-06-15
Using AI to Deliver a Device as a Service
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
HBase Procedure V2介绍
2018-08-13
HBase in Practise: 性能、监控和问题排查
2018-08-13
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Apache Hive Functions Cheat Sheet
2018-07-04
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
Apache Spark 2.4 and beyond
2019-04-14
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Flink社区专刊S2-重新定义计算
2019-04-11
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
2018 Apache HBase 技术实战专刊
2019-01-07
Spark+AI Summit Europe 2019 Part 3
2019-11-03
不仅仅是流计算:Apache Flink实践
2018-11-29
From Stream Processor to a Unified Data Processing System
2019-04-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅