阿里技术

阿里技术官方博客号,专注分享阿里技术的丰富实践、前沿洞察、技术创新、技术人成长经验。阿里技术,与技术人一起创造成长与成就。

  • 博客(204)
  • 资源 (1)
  • 收藏
  • 关注

原创 什么?for 循环也会出问题?

初来乍到的笃某不假思索,对方法入参内的列表使用了排序大法,通过实现 compare 接口,对应两个 Detail 的修改时间,便很轻松的获取到了想要的值。

2024-07-19 10:18:52 632

原创 微软最新 WiFi 远程代码执行漏洞(CVE-2024-30078)探究

从函数的名称 Dt11Translate80211ToEthernetNdisPacket 可以推测,这个函数用于处理 802.11 数据包。802.11 是一种无线局域网的标准,而 WiFi 是 802.11 标准的一种产品实现。用 IDA 反编译函数,发现补丁是增加了一处对数值的比较,如果不满足条件则返回 NDIS_STATUS_INVALID_PACKET(0xc001000),即数据包非法。调用层次图表明,函数会在接收到 802.11 数据包时被调用。

2024-07-17 09:58:42 777

原创 异步日志:性能优化的金钥匙

前面提到了 Log4j2 的高可扩展性,同时 Log4j2 的性能也是极高的,下面是 Log4j2 官方的 benchmark 数据,仅供参考:Log4j2 之所以性能如此之高,其中一个很重要的原因就是其。

2024-07-12 10:46:28 1194

原创 FlinkSQL 开发经验分享

FlinkSQL 的开发是最方便高效的实时数据需求的实现途径,但是它和离线的 ODPS SQL 开发在底层的机制和原理上还是有很大的区别,根本的区别就在于流和批的处理。如果按照我们已经习惯的离线思维来写 FlinkSQL,就可能会出现一些“离奇”的结果,但是遇到问题并不可怕,要始终相信根本不存在任何“离奇”,所有的问题都是可以追溯到原因的,而在这个探索的过程中,也可以学习到许多知识,所以让我们遇到更多的问题,积累更多的经验,熟练地应用 Flink。

2024-07-03 09:38:07 1303 1

原创 奇怪的缓存一致性问题

为了使各应用职责及整体的架构设计更加清晰,Push 中心整体将后台配置端和前台投放端分别部署在了两个应用中,两个应用需要分别配置数据库连接,分别配置缓存。数据一致性问题是我们在工程实践中经常遇到的一种问题,了解常见的解决方案,可以帮助我们有效解决该问题,更好地满足业务诉求。本文讲了那么多,到底哪种方案更好呢?是不是强一致性就是最优解?其实不存在绝对的“哪种方案更好”,只有最适合当前系统特性和业务需求的方案。

2024-06-28 09:57:22 871

原创 一次压测引发的数据库 CPU 飙升

一次压测过程中,当数据库的 qps 和 tps 都正常时,如果 cpu 利用率异常的高,应该如何排查?希望通过这篇文章,给你一些启发...

2024-06-21 10:13:45 826

原创 从源码分析 vllm + Ray 的分布式推理流程

随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个 A10 机器上,每个 A10 卡加载一半的模型,这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm、deepspeed-mii,rtp-llm 等。

2024-06-12 10:34:02 2269

原创 Master-Worker 架构的灰度发布难题

Master-Worker 架构是成熟的分布式系统设计模式,具有集中控制、资源利用率高、容错简单等优点。我们数据中心内的几乎所有分布式系统都采用了这样的架构。我们曾经发生过级联故障,造成了整个集群范围的服务中断。这让我们反思到 Master-Worker 架构难以有效的分批灰度发布的问题。本文试图分析其中原因,并尝试提出几种解决方案。防范集群范围的级联故联是分布式系统中的难题。本文提出了三种方法,但它们都有各自的局限。

2024-06-05 13:57:47 830

原创 如何优雅地编写缓存代码

在日常的编码实践中,经常会用到缓存来解决高并发问题,缓存可以说是解决流量洪峰的不二利器。虽然集团中间件团队已经构建了缓存的基础设施,已经帮助我们解决了绝大部分问题,但是在实际的编码使用过程中,应用端调用缓存 API 时还是存在下述几类问题:使用缓存的逻辑非常通用,基本都是先查缓存,有直接返回,没有查 DB,再放入缓存中。这段通用逻辑散落在系统的各个地方,违反了高内聚低耦合的原则。缓存代码和业务逻辑代码深度耦合在一起,不仅降低了代码的可读性,还额外增加了系统复杂度。

2024-05-22 14:41:07 433

原创 上海交大携手阿里巴巴成立人工智能与系统联合实验室

张瓅玶(谷朴)介绍了联合实验室的成立目标与组织架构,表示阿里巴巴将全力支持联合实验室的建设与发展,期待双方共同努力,产出更多具有影响力的科研成果,为阿里巴巴的业务创新提供有力支撑,并成为双方在 AI 与系统领域创新合作与人才交流的桥梁。复旦大学计算机学院薛向阳教授带来了题为《基于重构的组成式视觉场景表示学习》的学术报告,从视觉场景建模和组成式表示推断的角度,分享了基于重构的深度神经网络组成式场景表示学习的当前进展。

2024-05-15 10:47:38 612

原创 浅谈现代消息队列与云存储

1970 年代末,消息系统用于管理多主机的打印作业,这种削峰解耦的能力逐渐被标准化为“点对点模型”和稍复杂的“发布订阅模型”,实现了数据处理的分布式协同。随着时代的发展,Kafka,Amazon SQS,RocketMQ,Azure Service Bus,Google Pub/Sub,RabbitMQ 等众多产品为开发者在不同业务场景下提供了富有竞争力的解决方案,并扩展出顺序,事务,定时消息,精确一次投递等丰富的语义和特性,让消息系统成为分布式系统中的标准组件。

2024-05-10 14:08:26 1152

原创 世界读书日|看看阿里内部的技术大牛们推荐了什么书?

AI 时代,技术呈指数级发展,我们越来越关注,如何持续学习提升,跟上时代的步伐。刚好借着世界读书日的契机,我们邀请了阿里内部的技术大牛们,分享他们在 AI 时代持续学习的过程中,推荐的一些内容。这其中的每一本书,都带有推荐者深刻的感悟与独到的见解。在这个春意正浓的季节,期待与你重逢在阅读的旅程中。

2024-04-24 09:44:56 461

原创 如何爬出 Kotlin 协程死锁的坑?

/ 这段代码将死锁到天荒地老final ExecutorService executorService = Executors.newSingleThreadExecutor();相比别的死锁问题, 这一类问题的坑点在于, 因为线程池的实现问题, jstack 等 jvm 工具无法对其自动诊断, 只能肉眼看出。在 Kotlin 协程中, 因为底层的线程池申请更加黑盒, 如果不是足够了解, 很容易踩到这类坑。本文不会再去重复 Kotlin 协程的基本语法, 而是专注于死锁的话题。

2024-04-17 10:53:37 1288

原创 一些 MaxCompute 日常优化案例分享

MaxCompute 优化是一个多样而又重要的过程,优化过程中若能够深入理解 ODPS 的工作原理和内部机制,才能够更明确的发现运行过程中存在的问题,这样才能更有针对性地进行优化,优化需要不断思考和尝试不同的想法和方法,适当的时候我们可以寻求平台技术人员帮助,以找到最适合的优化方案。以下通过日常几个优化案例,最终优化手段可能非常简单,但其中的分析过程较为重要,希望对他人有所启发。

2024-04-10 11:02:29 703

原创 漫谈测试策略

测试策略有两层背景叠加:业务大背景和项目小背景。下文提到的测试策略有时指代业务级测试策略,有时指代项目级测试策略,如果无特指强调,则是在探讨两类测试策略的共同特点。

2024-04-03 10:29:08 1196

原创 聊聊我做测试开发的十年心路历程

不知不知觉,已经从事测试开发这个行当 10 来年了,从上大学到参加工作,从南方到北方再回南方,辗转了大半个中国,如今算算进公司已经开启了第五个年头,今年就要五年陈了。兜兜转转这十多年间,虽然一直都在质量领域,但其实也经历过不少的角色转换,这几年学习了很多,也收获了很多,希望借此机会跟大家分享自己这些年在质量域和职场上自己的一点思考和总结,写在现在,也写给未来的自己,记录今天的所思所想。在文章的结尾,借用康德的一句话来总结:我始终只求克服自己,不求克服命运;只求改变自己的欲望,不求改变世界秩序。

2024-03-27 14:21:34 910

原创 技术领导力之路 - 正反馈

TRE 会面向全部员工做一年一度的组织氛围调研,调研围绕员工的敬业度、满意度、文化行为等收集全面的数据,供管理者分析,帮助管理者改进。调研的问题有,我是否明确我的工作要求?在工作中,我觉得我的意见受到重视?等等。调研会根据大家对每个问题的回答计算一个分数,对于多数问题,普遍反馈得分都是比较高的,都在 4 分以上(总分 5 分)。唯独有一个问题,连续两年的得分都比较低,分别是 3.64 和 3.54 分。这个问题是:"在过去的七天里,我因工作出色而受到认可或表扬。

2024-03-22 14:34:11 874

原创 【一文读懂】基于 Havenask 向量检索 + 大模型,构建可靠的智能问答服务

Havenask 是阿里巴巴广泛使用的自研大规模分布式检索系统,是过去十多年阿里在电商领域积累下来的核心竞争力产品,广泛应用在搜推广和大数据检索等典型场景。在 2022 年云栖大会-云计算加速开源创新论坛上完成开源首发,同时作为阿里云开放搜索 OpenSearch 底层搜索引擎,OpenSearch 自 2014 年商业化,目前已有千余家外部客户。Havenask 通过深度集成 proxima 向量库,以 Havenask 中的一种索引类型的方式支持向量检索。

2024-03-13 11:19:00 1261

原创 从 Language Model 到 Chat Application:对话接口的设计与实现

从 2022 年底 chatGPT 的一炮走红开始,基于大语言模型的对话应用如雨后春笋一般全面开花。刚刚过去的 2023 年是千帆竞发的一年,在这一年里我们见证了百模大战,开源模型社区可谓繁荣昌盛:从 llama 到它的无数变体、qwen 系列的完整中文大模型生态构建、Mixtral 等多模态的成功尝试、再到 llava 等视觉大语言模型的蓄势待发。在语言模型上,我们已经有了十分丰富的选择,这些模型在 RTP-LLM 上都得到了较好的支持,可以高效地完成推理。

2024-03-06 10:51:05 1478

原创 破防了,谁懂啊家人们:记一次 mysql 问题排查

谁懂啊家人们,作为一名 java 开发,原来以为 mysql 这东西,写写 CRUD,不是有手就行吗;你说 DDL 啊,不就是设计个表结构,搞几个索引吗。键盘撒一把冻干,我家猫也能来上班。——粥师傅结果一次线上出问题了,一环接一环,不仅猫上不了班,晚上还得等我加班回家,眼巴巴吃不到冻干。(你看我锤不锤你就完事了)一切的问题源自对 create table as 这个语句的不熟悉,这个语句建表导致的表主键、索引、auto_increment 的丢失。不熟悉的 SQL 不能乱跑😭😭😭。

2024-02-28 14:32:22 1031

原创 【前沿技术】 阿里开源搜索引擎 Havenask 的消息系统

Havenask 是阿里巴巴广泛使用的自研大规模分布式检索系统,是过去十多年阿里在电商领域积累下来的核心竞争力产品,广泛应用在搜推广和大数据检索等典型场景。在 2022 年云栖大会-云计算加速开源创新论坛上完成开源首发,同时作为阿里云开放搜索 OpenSearch 底层搜索引擎,OpenSearch 自 2014 年商业化,目前已有千余家外部客户。下图展示了 Havenask 中一个完整的搜索服务:在线系统、索引系统、管控系统、扩展插件,且包括了查询流、数据流、控制流。

2024-02-22 14:47:21 1124

原创 阿里集团基于 Fluid+JindoCache 加速大模型训练的实践

Fluid 是一个开源可扩展的分布式数据编排和加速系统,以 Kubernetes 标准和对用户透明的方式为 AI 和大数据等数据密集型应用提供数据访问能力,其目标为构建云原生环境下数据密集型应用的高效支撑平台。Fluid 通过 Kubernetes 服务提供的数据层抽象,可以让数据像流体一样在诸如 HDFS、OSS、Ceph 等存储源和 Kubernetes 上层云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。

2024-02-06 10:35:51 1073

原创 软件架构一致性 —— 被忽视的研发成本

实体企业家都会非常清晰地了解他自己生意所涉及的供应链。在用来和软件工程做类比之前,我们可以先简单分析下牛奶这一商品的供应链体系,消费者购买牛奶,为此付费、满足自己强身健体的欲望。为了生产超市货架上我们看到的牛奶,背后需要生产资料或者服务非常之多,例如需要冷链物流、需要巴氏杀菌的设备、当然还有奶牛。再分析奶牛的背后,至少能够理解背后需要干草(有些高品质的牛奶需要特定的上等苜蓿干草),而大规模生产干草需要割草机、捆扎机、卡车等等。除了干草外,生产奶牛还需要牧场,而牧场又随时而来需要灌溉系统的支撑等等。

2024-02-04 10:08:54 1200

原创 「我在淘天做技术」2024 年看 AIGC 是如何让 1688 主图焕发新春的

我在这里想向大家介绍 1688 严选和商品品质化之旅。去年,我们推出了 1688 严选,面临的挑战是如何让买家相信我们的商品真的经过了严格的筛选。为了解决这个问题,我们定义了“严选”标准,并运用 AIGC 技术规模化生产和投放品质化商品主图,以提高买家的信任度。尽管我们面临图源质量、合图标准和流程自动化等挑战,但我们通过技术创新和优化流程,大幅提升了效率,如今能每天快速制作高达几万张品质主图,为 1688 商人节大规模投放做准备。

2024-01-29 11:03:25 1391

原创 「我在淘天做技术」智能对话新纪元:百万日活对话机器人的 LLM 落地实践

阿里小蜜家族(阿里小蜜、店小蜜、万象),从 2015 年发展至今,已经成为了覆盖淘天 P-C(平台-消费者)、B-C(商家-消费者)、P-B(平台-商家)全咨询体系的智能对话机器人,日均接待量级在百万(阿里小蜜)到千万(店小蜜)范围。作为淘天集团乃至行业内最大体量的对话机器人应用之一,阿里小蜜在对话算法能力上持续探索,在 2022 年 chatgpt 爆炸性的诞生之后,我们也加快了拥抱 LLM 技术的步伐。

2024-01-23 14:39:49 1554

原创 一文带你揭秘淘宝终端技术

作者:周杰(寻弦)在这个数字化迅速发展的时代,技术的每一次飞跃都不仅仅意味着一个产品的升级,更是对未来世界的一次大胆想象。从 PC 到 iPhone,从 Model 3 到 ChatGPT,都引领了全新的一个行业。对于正处在求学阶段的你们,选择一个充满活力、技术领先、并且可以提供巨大成长空间的团队,无疑是迈向成功职业生涯的关键第一步。现在,就让我们一同揭开淘天终端技术团队的神秘面纱,一步步为你揭晓为何我们在终端技术领域独树一帜。

2024-01-17 11:00:32 1300

原创 大模型推理优化实践:KV cache 复用与投机采样

我们在 Qwen13B/int8 量化/A10 机器的条件下,对不同输入和前缀长度的请求进行了测试:可以看到在复用 KV cache 功能极大程度的减少了 FTT,并且历史长度的变化对 FTT 的影响较小,FTT 更多的取决于本次请求的输入长度。并且除了多轮对话场景外,KV cache 复用功能也扩展到复用 Ptuning 前缀和长 System Prompt 的场景,降低 FTT 和显存占用。

2024-01-12 14:21:54 1749

原创 揭秘阿里自研搜索引擎 Havenask 在线检索服务

Havenask 是阿里巴巴广泛使用的自研大规模分布式检索系统,是过去十多年阿里在电商领域积累下来的核心竞争力产品,广泛应用在搜推广和大数据检索等典型场景。在 2022 年云栖大会-云计算加速开源创新论坛上完成开源首发,同时作为阿里云开放搜索 OpenSearch 底层搜索引擎,OpenSearch 自 2014 年商业化,目前已有千余家外部客户。下图展示了 Havenask 中一个完整的搜索服务:在线系统、索引系统、管控系统、扩展插件,且包括了查询流、数据流、控制流。

2024-01-09 10:42:06 1688

原创 一文详解 Java 限流接口实现

限流是对某一时间窗口内的请求数进行限制,保持系统的可用性和稳定性,防止因流量暴增而导致的系统运行缓慢或宕机。在高并发系统中,出于系统保护角度考虑,通常会对流量进行限流。在分布式系统中,高并发场景下,为了防止系统因突然的流量激增而导致的崩溃,同时保证服务的高可用性和稳定性,限流是最常用的手段。本文介绍的实现方式属于应用级限制,应用级限流方式只是单应用内的请求限流,不能进行全局限流。假设将应用部署到多台机器,我们需要分布式限流和接入层限流来解决这个问题。

2024-01-04 14:12:41 1615

原创 2024 通义语音 AI 技术图景,大模型引领 AI 再进化

PPT 视觉边界检测及大模型摘要是指提取视频中的 PPT 画面,并将每页 PPT 展示时所讲述的内容,提炼成摘要总结,便于快速回顾 PPT 及讲解内容。算法基本流程如下图所示,我们针对 PPT 展示的特点设计了结合视觉和文本的检测任务;

2023-12-29 15:46:51 2813

原创 Havenask 分布式索引构建服务 --Build Service

Havenask 是阿里巴巴广泛使用的自研大规模分布式检索系统,是过去十多年阿里在电商领域积累下来的核心竞争力产品,广泛应用在搜推广和大数据检索等典型场景,在 2022 年云栖大会-云计算加速开源创新论坛上完成开源首发,同时作为阿里云开放搜索 OpenSearch 底层搜索引擎,OpenSearch 自 2014 年商业化,目前已有千余家外部客户。下图展示了 Havenask 中一个完整的搜索服务:在线系统、索引系统、管控系统、扩展插件,且包括了查询流、数据流、控制流。

2023-12-27 09:58:11 1401

原创 技术人必修课:利用金字塔原理高效思考与表达

金字塔结构,顾名思义就是一个自顶向下愈加厚重,自底向上更显精简的三角锥体结构,抽象到思维层面可以认为是由一个中心思想统领多组思想的递进式结构。在这种结构中,思想之间的联系方式可以是纵向的,即任一层次的思想都是对其下一层次思想的概括;也可以是横向的,即多个思想可以按照逻辑顺序共同组成属于对应逻辑范畴的分组,而后被并列组织在一起支持上层思想。任何事情都可以归纳出一个中心论点,而此中心论点可由三至七个论据支持,这些一级论据本身也可以是个论点,被二级的三至七个论据支持,如此延伸,状如金字塔。

2023-12-22 14:32:51 802

原创 建立个人学习观|地铁上的自习室

上班、工作、下班、休息、睡觉。在退休前的绝大部分时光,可能都是这么度过的,即便有一天从打工人变成了老板,虽然流程变得复杂,大体框架或许也仍会如此。我特别害怕未来的某一天,等到我体力跟不上,脑力也跟不上的时候,回想起这段平常的打工时光,满脑子除了那些需求项目,却想不出任何色彩,工作仅仅变成了工作,打工仅仅只是打工。

2023-12-10 23:20:13 910 1

原创 「我在淘天做技术」迈步从头越 - 阿里妈妈广告智能决策技术的演进之路

在线广告对于大多数同学来说是一个既熟悉又陌生的技术领域。「搜广推」、「搜推广」等各种组合耳熟能详,但广告和搜索推荐有本质区别:广告解决的是“媒体-广告平台-广告主”等多方优化问题,其中媒体在保证用户体验的前提下实现商业化收入,广告主的诉求是通过出价尽可能优化营销目标,广告平台则在满足这两方需求的基础上促进广告生态的长期繁荣。广告智能决策技术在这之中起到了关键性的作用,如图 1 所示,它需要解决如下问题在内的一系列智能决策问题:1. 为广告主设计并实现自动出价策略,提升广告投放效果;

2023-11-28 15:38:23 1046

原创 策略模式在数据接收和发送场景的应用

在本篇文章中,我们介绍了策略模式,并在数据接收和发送场景中使用了策略模式。

2023-11-22 10:53:30 1567

原创 预发部署时机器总是重启两次的“简单”排查

先给 magellan 预发环境摘除了插件,保证开发体验,等插件逻辑修复好了再重新挂载在设计上,运维容器和主容器在同一个 Pod 内,共享磁盘,运维容器的确有权限操作主容器里的进程,那么在架构上要如何防范呢?我还没有答案,不知各位是否有,有的话,请留言告知。如果非要说本次排查过程有什么深刻体会的话,那就是“不要放过任何一个可疑的地方”!

2023-11-17 10:33:34 983

原创 「我在淘天做技术」假如你五行属商家,如何算好账?

个人吃穿用度、迎来送往,都得花钱。节日红包、工资年终,也记账上。那么一家企业更是如此,新开了什么项目,办了什么活动,哪里该收钱,哪里该花钱,更是一分不能漏,一厘不能错。比如消费者在淘宝上买的东西到了,还是包邮的,他没有付钱,但是你作为商家会被收取物流费、仓内操作费、包裹的材料费;消费者在淘宝上要买冰箱,下单的时候平台顺便送冰格或保鲜膜,他也不会付钱,消费者未必会想到为什么他们可以在一起买一送一件赠品。不过这自然是平台在背后有这个营销活动,而撮合了这笔交易的同时你作为商家要出一笔服务费;

2023-11-13 16:15:20 1200

原创 「我在淘天做技术」音视频技术及其在淘宝内容业务中的应用

近年来,内容电商似乎已经充分融入到人们的生活中:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间、或者短视频链接下单自己心仪的商品。尽管优质的货品、实惠的价格、精致的布景、有趣的内容输出都是非常关键的影响因素,内容电商也必须基于两个前提:画质要高清、播放要流畅。曾经,有不少商家和主播因为直播间画质较差的问题而苦恼,不了解如何实现高画质开播。在一系列前沿音视频技术的加持下,淘宝音视频技术团队解决了这个问题。

2023-11-09 10:11:09 2139

原创 「我在淘天做技术」1688的AIGC商业化落地实践探索

在围绕人、货、场构建的电商体系中,「招、选、搭、投」分别是营销活动的最核心的节点。「招」指的是招商, 它是整个活动的起点,它决定了哪些商家、哪些商品参加活动,以什么价格参加活动,提供什么样的权益和玩法,在导购链路上的素材是有哪些。「选」是选品,根据一系列特征指标的组合,从招商报名的商品中,筛选出高质量且符合投放场景的商品集合,如圈选出女装类目下最近 30 天销量大于 1000 的商品用于展示在女装会场。「搭」是页面搭建,运营用可视化的平台,配置出来一个会场有哪些模块,长什么样子。「投」

2023-11-03 10:28:12 2308

原创 Khronos: 面向万亿规模时间线的性能监控引擎建设实践

指标数据采集的入口是部署在各个物理机上的指标采集模块 kmon-agent。kmon-agent 会将本地采集的原始指标降精度(down-sample)为 4 个精度:20 秒、1 分钟、10 分钟、60 分钟,并将降精度后的数据,写入该租户对应的 4 个消息队列(MessageQueue)中。Khronos 会直接消费消息队列中的数据。

2023-10-25 11:34:57 2234

2021阿里研究生态报告集

《阿里研究生态报告集(2021)》由阿里研究院主编,汇集了阿里研究生态的30余篇课题成果,涵盖与阿里密切相关的社会价值、科技创新、乡村振兴和双循环等四大领域。

2022-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除