自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

过往记忆大数据

欢迎关注过往记忆大数据

  • 博客(1204)
  • 资源 (291)
  • 收藏
  • 关注

原创 从批处理到流式处理:加速 Uber 数据湖中的数据实时性

业务影响涵盖实验、风险检测、个性化和运营分析——在这些领域,陈旧的数据会延缓创新,降低响应能力,并限制做出主动的、数据驱动决策的能力。我们在 Uber 一些最大的数据集上证明了它的性能,设计了用于操作数千个作业的控制平面,并解决了流处理特有的挑战,如小文件生成、分区倾斜和检查点同步。我们通过运维调优(将并行度与分区对齐,调整拉取参数)、连接器级别的公平性(轮询、对重负载分区进行暂停/恢复、每个分区的配额)以及改进的可观测性(每个分区的滞后指标、感知倾斜的自动扩缩容和针对性警报)解决了这个问题。

2025-12-12 10:00:06 960

原创 Pinterest 人工智能平台十年发展历程

赋能(Enablement)、效率(efficiency)和速度(velocity)相互倍增(multiply each other),多年后我们发现,当我们想要使用更复杂的数据源、特征转换和模型时,这些权衡就显现出来了。这篇回顾着眼于我们吸取的经验教训,希望这些教训能引起其他处于类似旅程中的公司的共鸣。:一个由两名工程师组成的微小团队试图统一规模大得多的团队的堆栈,并认识到决定采纳的是。的快速发展带来了新的能力,但也带来了新的限制。方面遇到了困难:庞大的作业图、深层的继承链以及不断增长的配置标志,其中。

2025-12-09 08:29:21 705

转载 很严重了,大家别轻易离职。。

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。懂数据、了解AI业务,才能通过数据不断推动公司AI业务的优化与迭代!详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!AI产品岗必懂的AI技术:RAG、Agent、Transformer架构、预训练等!既懂数据、又了解AI业务的数据人,势必是未来更抢手个和更具竞争力的AI数据人才。本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。华为、百度、字节等大厂现在都在高薪挖人,有相关经验的,就能给到!

2025-12-08 08:32:41 29

转载 千问Text2SQL:两种迥异的技术路线对比

第一篇(-QNjLRzgTLHBeiIgW8s1iA):典型的 “LLM + RAG + 中间 DSL” 路线,依赖大模型理解+检索增强生成,中间层是结构化查询语言(如 MQL),但仍需 LLM 生成该中间语言。第二篇(pdAegb0iN9QdP48NfEJI7A,润乾 NLQ):提出 “规范文本 + 规则引擎 + 可确认中间层” 的三阶段架构,大幅弱化对 LLM 的依赖,将核心逻辑下沉到可解释、可维护的规则系统中。从自然语言到DSL是很困难的,需要LLM支持,但反过来应该可以用相对简单的规则引擎实现了。

2025-12-04 08:31:28 80

原创 Apache XTable:打破数据湖格式孤岛的“通用翻译官”

一旦你选择了一种格式,往往意味着你需要绑定特定的计算引擎,或者需要昂贵的 ETL 过程才能在不同工具间迁移数据。XTable 可以作为中间件,将这些异构数据源“虚拟化”为统一的格式,供全公司的数据目录(Data Catalog)管理,而无需物理搬运数据。你的 S3 桶里不仅有原始的 Hudi 结构,旁边还通过 XTable 生成了合法的 Iceberg 和 Delta 元数据文件。从单一的格式供应商手中夺回,交还给了用户,实现了真正的“Write Once, Read Anywhere”。

2025-12-01 08:32:20 943

原创 Mooncake: 基于 Apache Iceberg 构建的实时存储引擎

对象存储是数据的事实来源(权威存储)。Mooncake 支持将传统上需要专用数据库(如搜索场景的 Elasticsearch、分析场景的 ClickHouse、AI 场景的向量数据库)处理的工作负载,直接在 Iceberg 数据湖上运行 —— 从而在单一存储层实现实时工作负载与分析工作负载的统一。Mooncake 的解决方案:定期写入 Iceberg 元数据,同时提供兼容 Iceberg 的 API,支持在元数据提交前 “读取最新版本”—— 通过动态生成最新元数据和数据文件,实现亚秒级表数据新鲜度。

2025-11-26 18:55:27 281

转载 VeloxCon China 2025 盛会即将在北京开幕

作为 Velox 社区的顶级技术盛会,本届大会将汇聚来自 Meta、蚂蚁集团、IBM、英特尔、阿里巴巴、腾讯、小米、小红书等团队的核心开发者,通过分享一系列生产环境下的实战经验与架构演进,完整呈现 Velox 驱动下一代数据基础设施的技术全景与社区生态。在数据驱动一切的时代,从交互式商业智能、大规模 AI 训练,到高并发实时分析与持续流处理,多样化的现代工作负载正不断挑战传统数据引擎的性能极限。大会议程现已发布,让我们先睹为快!

2025-11-23 20:26:11 73

转载 谷歌发布 Gemini 3:最智能的模型,助你将任何想法变为现实

与此同时,Gemini 3今日也将登陆Gemini应用,面向AI Studio与Vertex AI(顶点AI)的开发者开放,并集成至我们全新的智能体开发平台Google Antigravity(谷歌反重力)——更多细节将在下文介绍。得益于我们在AI创新领域差异化的全栈式布局(从领先的基础设施,到世界级的研究成果、模型与工具,再到触达全球数十亿用户的产品),我们得以以前所未有的速度向世界交付先进的AI能力。如今,我们正式推出Gemini 3(Gemini 3)——这是我们目前最智能的模型。

2025-11-19 07:47:31 130

转载 深入探索 Hudi 索引子系统(上)

Hudi 元数据表是一个 MOR 表,同时充当多模式索引子系统,按索引类型(如 files/、column_stats/、partition_stats/)进行物理分区,基础文件采用 HFile(类 SSTable)格式 —— 该设计能满足湖仓规模下索引所需的 “快速点查询” 和 “高效键前缀批量扫描” 需求;:读取流程中,files 索引枚举候选分区 / 文件,partition stats 剪裁无关分区,column stats 剪裁无关文件,最终仅读取满足查询需求的最小文件集合。

2025-11-13 13:44:40 108

原创 200 万个 Spark 作业从 2.4 升级到 3.3 在 Uber 的实践

迁移过程中开发的 Iron Dome 等框架,为 Spark 应用程序提供了通用沙箱环境,为未来的 Spark 版本升级铺平道路。Apache®、Apache Spark™、Apache Spark SQL™、Apache Hive™、Apache Hadoop®、Apache Gluten™、Apache Kafka® 及星形标志均为 Apache 软件基金会在美国及其他国家 / 地区的注册商标或商标。:拦截器会将任务写入的表、访问的路径等信息,以遥测数据形式发送至消息队列,用于与生产数据进行对比验证。

2025-11-12 13:19:43 1027

原创 Kafka 作为事件流的商业模式正在消亡

在10亿美元的总收入中,这很难成为公司增长放缓的救星。更糟糕的是,这24%的增长率仅仅是针对他们的云产品。——Aiven 最近承认,大多数 Kafka 工作负载都很小(< 10MB/s 甚至 < 1MB/s),而 Kafka 的开销对于这种规模较小的工作负载来说太高了。他们知名度很高,赢得了众多开发者的青睐,并且正在向一个成熟的、价值数十亿美元的市场(Kafka)销售产品。从图中可以看出,Confluent 销售的产品的潜在市场总规模似乎比 Snowflake/Databricks 销售的产品要小得多。

2025-11-11 11:38:53 1266

转载 最近,数据的招聘市场已经疯掉了。。。

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!

2025-11-03 08:02:59 56

原创 使用 Velox 和 NVIDIA cuDF 加速大规模数据分析

如图3所示,Presto在使用新的基于UCX的exchange时在GPU上实现了高效性能,尤其是在GPU之间提供了高带宽节点内连接的情况下。如图2所示,在 SF1,000下,我们观察到Presto C++在AMD 7965WX上的运行时间为1,246秒,Presto在NVIDIA RTX PRO 6000 Blackwell工作站上的运行时间为133.8秒,Presto在NVIDIA GH200 Grace Hopper超级芯片上的运行时间为99.9秒。集群上剩余的CPU容量可用于其他查询或工作负载。

2025-10-21 18:59:42 1155

转载 StarRocks Connect 2025 | 技术大咖共话 AI 原生时代的数据分析新范式

连接全球数据生态的能力,并从电商、在线旅游、跨国协作、酒店娱乐等多个真实业务场景中,学习头部企业的最佳实践。,让每一位来宾都能在轻松愉快的氛围中,与讲师和同行深入探讨技术话题,结识志同道合的伙伴,碰撞出新的思想火花。等知名企业的一线技术专家,以及多位行业领袖,致力于将全球前沿的技术视野与本土化的深度实践相结合。,在绿草如茵的环境中,参与者可以通过有趣的游戏与技术大咖进行面对面交流。的核心技术架构,并首次披露其全球社区的最新动态与未来技术路线图,分享。技术的浪潮席卷全球,数据基础设施正迎来深刻变革。

2025-09-02 08:31:19 176

原创 为什么 Iceberg 社区选择遗弃 MoR 中的 positional delete?

Iceberg 虽通过快照隔离(snapshot isolation)机制确保数据一致性(在重写提交前不会丢弃删除文件,直至旧快照过期),但实践中仍存在"悬空删除"(dangling deletes)问题——元数据中残留引用已不存在文件的删除条目。在本示例中,若需读取分区 P1 内的文件 A,查询仍须加载合并删除文件(该文件包含 A 和 B 的删除条目),随后再丢弃与 B 相关的无关条目。即便采用分区范围删除优化单个分区的文件数量,巨量分区(每个至少一个删除文件)仍导致文件总数爆炸式增长。

2025-07-30 19:27:55 1072

原创 Databricks收购Fennel:实时计算与AI的“终极合体”,数据平台战争进入新纪元?​

即便在生成式AI爆发的今天,实时、个性化的特征仍是提升大语言模型(LLM)应用效果的关键——比如在推荐系统中,实时用户偏好数据能显著增强提示词(prompt)的精准度。此次收购后,Fennel的能力将深度集成至Databricks Data Intelligence Platform,客户可一站式完成数据湖仓管理、特征工程、模型训练与实时推理,彻底告别复杂的基础设施运维。Fennel支持批处理、流式、实时数据的统一计算,消除训练与线上服务的特征差异(即“训练-服务偏差”),确保模型从开发到部署的平滑过渡。

2025-04-19 18:32:15 607

原创 一文掌握 Velox orderby 算子的排序算法

通过前一步,我们已经算出哪些列支持规范化,以及每行规范化后的字符串占用多少字节(entrySize,注意,实际上列的数据规范化后的大小应该为 normalizedBufferSize,但是为了处理不支持规范化列的比较,所以每一行规范化后的字符串后面还会加上当前行在 rowContainer 里面的地址,所以 entrySize = normalizedBufferSize + 8)。如果直接把这个数据写到规范化的字符串里面,二进制 00010010 将被写到字符串的前面,那么比较的结果将是不对的。

2025-03-31 09:26:40 795

转载 2024 年数据库回顾:一年综述

本文原文来自:Databases in 2024: A Year in Review // Blog // Andy Pavlo - Carnegie Mellon University就像一颗子弹击中你的头顶,我回来了,要给你带来我关于数据库领域发生的事情的年度综述。是的,我曾经在OtterTune博客上写过这篇文章,但公司已经倒闭了(安息吧)。我现在在我的教授博客上发表这篇文章。过去的一年有很...

2025-01-03 08:34:38 656

原创 告别 Shuffle!深入探索 Spark 的 SPJ 技术

随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...

2024-12-26 18:02:22 1874

原创 在上千万行的 Java 代码迁移到 Kotlin 在 Meta 的实践

在当今数字化飞速发展的时代,软件编程语言的抉择对科技企业的开发效率与项目质量有着至关重要的影响。Meta 公司作为科技领域的巨头,做出了将大量Java代码迁移到Kotlin的重大决策。Meta之所以选择Kotlin,是因为Kotlin相对Java具有众多显著优势。Kotlin支持可空性和函数式编程,这使得代码在处理空值和逻辑处理上更加简洁高效;其代码更为简短,有助于提高开发效率;还能创建特定领域语...

2024-12-25 09:01:35 791

原创 Magnet: 基于推送的大规模数据处理Shuffle服务

本文翻译自:《Magnet: Push-based Shuffle Service for Large-scale Data Processing》摘要在过去的十年中,Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样,随机Shuffle操作(即中间数据的全部对全部传输)在 Spark 中起着重要作用。在 LinkedIn,随着数据量...

2024-12-24 12:15:23 674

转载 Spark on Kubernetes 在多点DMALL的探索实践

摘要:多点在云原生建设中,全力推动Spark on k8s及大数据调度平台、日志采集、集群监控等组件的升级迭代,打造出了一套云中立,更具性价比的存算分离架构体系,平稳支撑了公司To B业务的开展。一、背景1.1 Hadoop 生态:短板凸显多点 DMALL 最初使用的是传统的 Hadoop 生态搭建大数据集群。使用 HDFS + Hive + Spark + Flink + Yarn 的经典组合,...

2024-11-08 10:49:57 432

转载 Elasticsearch 在滴滴的应用与实践

滴滴 Elasticsearch简介简介Elasticsearch 是一个基于 Lucene 构建的开源、分布式、RESTful 接口的全文搜索引擎,其每个字段均可被索引,且能够横向扩展至数以百计的服务器存储以及处理 TB 级的数据,其可以在极短的时间内存储、搜索和分析大量的数据。滴滴 ES 发展至今,承接了公司绝大部分端上文本检索、少部分日志场景和向量检索场景,包括地图 POI 检索、订单检索...

2024-09-13 18:15:20 641

转载 打造运营商实时分析平台——浩鲸科技 ByConity 应用实践

浩鲸科技 2003 年创建,为运营商提供高质量信息服务,在全球有多个研发中心。浩鲸科技正在进行业务全球化的布局,目前海外市场占比已接近 50%。国外运营商的用户规模小,用户业务量不高,运营商主机数量少。由于业务特点,其对独立小型部署需求较多。ByConity 给浩鲸科技提供了对应产品能力,帮助其解决了产品痛点,更好地满足了客户需求。本文将介绍浩鲸科技在电信运营商场景下使用 ByConity 进行实...

2024-08-02 19:14:50 256

转载 强烈建议企业数字化引入AI大模型!

如果你问:2024年,程序员必须掌握哪项技术?AI一定是榜首!从去年起,AI大模型已是程序员的必备工具——‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍编程提效:编写更快,程序更稳定;代码更优:测试数、BUG对应减少;项目爆单:训练模型,接&做项目更快;输入prompt指令和搭建AI大模型开发框架,AI就能迅速批量完成工作,甚至比人工更出色。知名大厂都在布局AI市场,懂AI的程序员年薪甚至翻到80w-9...

2024-07-25 11:02:45 195

转载 2024企业级BI平台白皮书(附下载)

《企业级BI平台白皮书》是观远数据发布的业内首部聚焦规模型企业数字化转型,探寻BI平台企业级能力建设方法论的白皮书,也是观远数据基于多年来与超过400家先进企业携手数字化实践的经验沉淀与应对方案整合。白皮书从规模型企业数字化转型特有的挑战入手,针对企业丰富的数字化触点、规模化能力建设、智能决策、组织升级需求进行分析,梳理了规模化企业对于“企业级BI”能力的要求,建设性地提出了企业级BI“五力模型”...

2024-07-08 16:31:44 350

转载 强烈建议数据人学习AI大模型!

国内大模型“落地战”终于打响!一些大模型企业开始赚钱了最高单个项目金额近2亿元人民币除科大讯飞、阿里云、华为等巨头公司之外,很多中小企业也陆续进场各个机构与企业开始大刀阔斧招揽 AI 人才甚至开出80k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后...

2024-06-30 21:58:03 217

原创 深入了解 Presto 原生 C++ 查询引擎-Presto 2.0

在过去三年中,来自Meta、Ahana(现为IBM)、Intel和字节跳动的工程师团队联手打造了一款名为Velox的先进执行引擎,它的设计目标是可以在各种计算引擎之间灵活组合使用。在这个过程中,他们开发出了基于C++的Presto worker,这是一个全新的查询执行引擎,它基于Velox构建,此前被称为Project Prestissimo,现在则被命名为Presto 2.0。我们很高兴地宣布,...

2024-06-27 19:32:30 1291

转载 Spark向量化计算在美团生产环境的实践

总第592篇 |2024年第012篇Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎,本文将阐述美团在这一方向的实践和思考。1 什么是向量化计算1.1 并行数据处理:SIMD指令1.2 向量化执行框架:数据局部性与运行时开销1....

2024-06-20 21:11:17 433

转载 取代数据岗,中国又一新兴岗位在崛起!这才是数字化人未来5年最好的就业方向!...

随着GPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑数据人核心竞争力(不限年龄!不限岗...

2024-06-12 18:29:56 216

原创 Uber 提升 Presto 集群稳定性的 GC 调优方法

Presto at UberUber 利用开源的 Presto 查询各种数据源,无论是流式还是归档数据。Presto 的多功能性赋予我们做出基于数据的明智商业决策的能力。我们在两个地区运行了大约20个 Presto 集群,总共超过10,000个节点。我们有大约12,000个每周活跃用户,每天运行约500,000个查询,从 HDFS 读取约100 PB 的数据。现在,Presto 被用于查询各种数据...

2024-06-06 19:25:32 1111

原创 重磅消息,Databricks 收购了 Apache Iceberg背后公司 Tabular

旧金山 — 2024年6月4日 — 专注于数据和人工智能的 Databricks 公司今天宣布,已经决定收购由 Ryan Blue、Daniel Weeks 和 Jason Reid 创办的数据管理公司 Tabular。这次收购汇集了 Apache Iceberg™ 和 Linux Foundation Delta Lake 的创始人,这两种开源 lakehouse 格式是目前领先的数据存储格式。...

2024-06-05 09:29:47 1430

转载 很严重,大家做好准备吧......

2024开年至今多家企业被曝裁员又降薪真搞得人心惶惶,坐立难安相反,作为席卷全球的新概念ESG真的是火爆了整个数据行业圈特别是政策要求各大企业强制披露ESG报告更是带来了巨大的市场和岗位需求ESG报告里最重要的一块就是数据披露和数字化建设这对于数据管理和数字化从业是一个重要的机会目前国央企、各大厂和实体企业都在大力布局甚至在行业圈内成为大佬们的热门话题目前行业裁员又降薪下大家冲一冲这个新兴领域01...

2024-06-04 10:26:00 261

转载 恭喜了!全体数据人彻底狂欢吧!这个好消息来得太及时!

【AI大模型人才培养计划】适用所有程序员2024年,AI在全球市场全面爆发。新的算法、模型和应用场景不断涌现,各个行业大模型应用激增,AI相关岗位需求增长超300%。无论是Google、百度、阿里等互联网巨头,还是中小型的科技公司都开出高于普通程序猿5倍薪资挖掘AI大模型人才。随着技术日新月异,各行各业对AI产品需求会不断攀升,大模型人才将更炙手可热。现在开始入局AI风口,很快就年薪100W!为帮...

2024-05-17 18:24:18 163

转载 最近这情况,奉劝大家还是多做一手准备吧

随着GPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑数据人核心竞争力(不限年龄!不限岗...

2024-05-07 12:09:41 168

转载 裁员了,很严重,大家做好准备吧!

2024刚开年,多家企业被曝裁员又降薪,真的是搞得人心惶惶,坐立难安。相反,作为席卷全球的新概念,ESG也真的是火爆了整个行业圈,尤其是的数据分析领域。特别是随着政策要求各大企业强制披露ESG报告,更是带来了巨大的市场和岗位需求,“ESG月薪炒到15万”的话题,更是不绝于耳。数据人作为践行ESG最直接的关联者,企业的ESG布局也是随着政策上涨,ESG数据分析岗几乎一夜之间成了最香的那一个。包括国央...

2024-04-24 12:36:05 263

转载 ByConity 替换 ClickHouse 构建 OLAP 数据平台,资源成本大幅降低

ByConity 是字节跳动开源的云原生数据仓库,在满足数仓用户对资源弹性扩缩容,读写分离,资源隔离,数据强一致性等多种需求的同时,提供优异的查询,写入性能。GitHub |https://github.com/ByConity/ByConity作者|程伟,MetaAPP 大数据研发工程师MetaApp 是国内领先的游戏开发与运营商,专注移动端信息高效分发,致力于构建面向全年龄段的虚拟世界。截至 ...

2024-04-23 08:30:11 245

转载 ByteHouse如何将OLAP性能提升百倍?

点击阅读原文,即可下载《云原生数据仓库ByteHouse性能白皮书(企业版)》在数据处理和分析的领域,提升查询效率始终是一项关键挑战。对于 OLAP 来说,性能的关键需求在于能支持实时分析,应对复杂查询,提供快速响应,并具备良好的可扩展性。这些方面,对于满足高效、准确的数据分析需求至关重要。火山引擎正式发布《云原生数据仓库ByteHouse性能白皮书》,白皮书通过使用 SSB 100G、TPC-H...

2024-04-19 18:30:03 217

转载 4月,一个新方向爆了,96k很稳...

国内AI赛道又爆了!继科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!人才市场上AI大模型工程师“一将难求”!甚至开出80k*16的高薪,挖掘AI大模型人才!如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?与其焦虑……不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!????知乎知学堂特邀你加入:行业前沿资源——AI大模型公开课已为本...

2024-04-14 18:54:50 151

转载 月薪已炒到15w?中国又一新兴领域在崛起!这才是数据人未来5年最好的就业方向!...

作为席卷全球的新概念!ESG这次真的火爆了整个互联网圈!“ESG拯救天坑专业”“靠ESG买下一套房”“ESG岗位月薪15万”的话题挠动了很多互联网人的心!让人忍不住发问,“这是什么神仙职业?”一、什么是ESG?如何快速“破局”入行!要弄懂这个“神仙”岗位,首先要明白什么是ESG。一句话介绍什么是ESG?ESG是一种关注企业环境(Environmental)、社会(Social)、治理(Govern...

2024-03-12 12:06:36 177

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造,是一个与其他高性能Oracle云服务相集成,且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案,能够与任何系统进行定制化整合。

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》,老罗说跨界很重要,实在想不到跨什么,就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享,我会用我的从工程师到专家工程师的亲身经历作为案例,从沟通力,学习力,思考力,强迫力,告诉大家,用怎样的钥匙才能打开这扇门。希望听众能收获并践行,让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者,见证过流量分发、移动互联网等技术为王的时代,也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代,一个算法的优化,可以轻松提高收入,一个首屏加载时间的优化,可以快速提高转化率,那是一个技术为王的时代,我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代,我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业,突然发现我们做了很多管理系统,类erp系统,只是这些系统比之前复杂很多,我们经常在中间晕头转向,而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。 互联网+时代,技术管理者身边充斥这样的声音:后端研发跟你抱怨技术挑战小,没有成长空间;前端小伙伴跟你吐槽做了太多管理系统,想玩各类新技术RN、酷炫的动画都找不到试验田;业务还不会不断告诉你,xx系统的设计方案完全不符合线下场景……在焦躁不安中,甚至开始怀疑,这还是就技术改变世界的时代吗?

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

QCon北京2018-《RandonDb新一代分布式关系型数据库》-张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析(kylin),楼盘字典等核心项目的应用,并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构,以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase in Practise: 性能、监控和问题排查

HBase在不同版本(1.x, 2.x, 3.0)中针对不同类型的硬件(以IO为例,HDD/SATA-SSD/PCIe-SSD/Cloud)和场景(single/batch, get/scan)做了(即将做)各种不同的优化,这些优化都有哪些?如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能? 在生产环境可能出现各种问题,而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控,其中有哪些是要特别关注的?线上不同类型的问题应该重点查看哪些metrics来定位问题?如何结合metrics和客户端/服务端日志快速定位问题?

2018-08-13

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本,Hyperledger fabric是一个比较知名的开源区块链框架,其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信,又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题,这里我们将会介绍一种优化的bft共识算法的设计和使用方式。 对于区块链服务的使用者,数据安全性是一个非常重要的问题,例如同态加密,零知识证明和国密算法等,我们会介绍这些高级功能特性,讲解这些特性的原理,以及介绍华为提供的这些特性支持中接口是怎么使用,还有通过代码示例演示怎么使用这些高级特性,让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT,下载。spark-summit-north-america-2018-06

2018-06-17

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序,专注于社区内容的整理、归类和检索,并通过连接微信公众平台,移动APP进行内容分发。

2018-09-13

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

2018-09-21

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

从MPP数仓迁移至Spark:案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。 下面是PPT原文:关注 Hadoop技术博文 并回复 ebay_spark 获取本文PPT。

2019-03-31

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算:Apache Flink 实践》正式发布,该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容,希望对大家有所帮助。详情参考:https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。详情:https://www.iteblog.com/archives/2431.html

2019-09-21

Apache Doris (Incubating) 原理与实践.pdf

Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark AI Summit Europe 2018 全部PPT - part1

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Apache Spark Shuffle I/O 在 Facebook 的优化

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理,一共156页,包含HBase案例、组件、技术、平台等方面的介绍,详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT,解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-03

不仅仅是流计算:Apache Flink实践

为了让大家更为全面的了解Flink,我和 infoQ 的徐川联合制作了一本介绍 Apache Flink 的中文专刊《不仅仅是流计算:Apache Flink实践》。它融合了Apache Flink在国内各大顶级互联网公司的大规模实践。更多大数据博文参见https://www.iteblog.com

2018-11-29

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除