阿里技术-CSDN博客

原创《企业 AI 应用构建指南》正式发布

基于阿里经验，剖析 AI 应用的架构、交付、研发基础设施与安全挑战。

2025-09-19 10:31:34 1193

摘要：本文分析了EFC（ElasticFileClient）分布式文件系统客户端在NAS场景下CTO测试中出现的数据不一致问题。通过日志调查和错误复现，发现问题的根源在于缓存版本号回退导致客户端读取旧数据，进而引发pagecache脏页刷盘时破坏了文件系统数据。具体表现为追加写操作中文件系统填充的NULL字符被缓存读取，并在后续写入时覆盖正确数据。最终通过维护递增的缓存版本号修复该问题，并深入探讨了POSIX接口的底层行为差异。整个分析过程揭示了buffer写、setattr触发机制等内核优化细节，为分布

2025-09-10 11:06:19 1004

原创阿里云基础网络技术5篇论文入选全球网络顶会NSDI

在2025年全球顶级网络系统会议NSDI上，阿里云基础网络技术的五篇论文被主会录用，涵盖了多个重要领域的研究成果。其中，主创论文《Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production》总结了阿里云在大模型训练中的实践经验，提出了端+网+任务协同的系统性智算网络诊断体系，显著降低了网络故障诊断耗时。此外，其他四篇论文也展示了阿里云在智能CDN拥塞控制、GPU解耦型推理场景、容器网络性能优化等方面的创新成果

2025-05-22 15:44:29 1277

原创【云故事探索 | No.12】：茶百道——奶茶上云，原生的更好喝

茶百道自2008年成立，从100家门店扩展至7000多家，年销量达8亿杯。2018年起，茶百道开启全国加盟，通过数字化转型，实现供应链、运营及营销的全面升级。借助阿里云技术，优化从前端到后端的业务流程，提升用户体验，降低运营成本，显著增强了市场竞争力。一年卖出 8 亿杯，考验的不仅是奶茶的品牌、口感和性价比，还得有一套打通线上和线下、连接上下游供应链、以保障丝滑购买体验的数字化系统。茶百道成立于 2008 年，起初，茶百道坚持一步一个脚印，用了 8 年时间门店数量也只有 100 家。

2025-05-22 15:32:13 1262

原创【云故事探索 | No.11】：福建紫讯——数字化转型的前行者

福建紫讯科技成立于2015年，致力于为跨境电商提供高效软件解决方案。通过整合大数据、云计算和AI，构建了完整的跨境电商生态系统。面对网络访问难题，紫讯优化了紫鸟浏览器，提升了用户体验，并借助阿里云的PAI框架，大幅降低了研发成本。未来，紫讯将继续深耕AI技术，提升卖家竞争力，并与阿里云深化合作，推动行业发展。云故事1102、紫讯的起源与愿景福建紫讯科技成立于2015年，创始人刘志海心怀助力中国跨境卖家的梦想，致力于提供更高效的软件解决方案。

2025-05-22 15:30:12 703

原创【云故事探索 | No.10】：厦门立马耀的数字化转型之路

厦门立马耀网络科技有限公司在数字化转型中，通过将云计算技术深度融入业务，成功应对市场挑战并推动业务多元化发展。公司旗下的“蝉妈妈”品牌为中小企业提供全面的数字营销解决方案，成为行业标杆。通过与阿里云合作，立马耀构建了高可靠性计算平台，利用弹性计算和云原生技术提升业务灵活性和成本效益。此外，公司还通过AI技术赋能客户，推动新项目“蝉镜”的发展

2025-05-22 15:28:40 897

原创【云故事探索 | No.9】：大洋彼岸的智能工具：劳动力管理，盖雅搞得定

在数字化转型的背景下，苏州盖雅信息技术有限公司（盖雅工场）作为劳动力管理领域的领军企业，通过与阿里云的合作，成功实现了从传统软件公司到领先SaaS提供商的转型。自2009年成立以来，盖雅工场已服务全球29个国家和地区的1800家客户，覆盖600万员工。利用阿里云的云计算技术，盖雅工场不仅提升了业务效率，还实现了服务的移动化和智能化。特别是在处理高并发数据和复杂计算方面，阿里云的技术支持帮助盖雅工场有效应对了业务挑战，如通过OSS实现高效文件存储，利用PolarDB Serverless进行动态扩展，以及通过

2025-05-22 15:26:24 1033

原创【云故事探索 | No.8】：揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

天津市神州商龙科技股份有限公司成立于1998年，专为餐饮行业提供数字化解决方案。公司服务10万余家知名餐饮企业，确保用餐体验的稳定性至关重要。在业务容器化和微服务化过程中，神州商龙面临技术架构多样性、高可用要求及成本控制等挑战。通过尝试自建Prometheus和SkyWalking监控方案，最终选择阿里云Prometheus和日志服务SLS，实现了统一可观测平台，提升了监控效率、缩短故障排查时间、增强系统稳定性和优化资源利用率。

2025-05-22 15:24:30 846

原创【云故事探索 | 】No.7：「越用越上瘾」，中华财险60%研发人员用通义灵码提效

保险业被视为社会“稳定器”与经济“助推器”，正快速数字化转型。中华联合财产保险股份有限公司运用“云+大模型”技术革新业务，通过阿里云的通义灵码大幅提升编码效率，近60%的研发人员采用，采纳的生成代码占比约20%，显著提升了团队创新能力与代码质量，并积极探索大模型在更多垂直业务场景的应用。保险业被看成是社会“稳定器”和经济“助推器”，近年来已驶入数字化发展快车道。在 AI、大模型当道的今天，保险行业的研发流程、产品设计、场景拓展等业务链条各环节，都值得用大模型进行重塑。

2025-05-22 15:17:00 484

原创【云故事探索 | No.6 】：云端生物，自服务用云的溯源精微

在北京溯源精微科技有限公司的故事里，云计算成为了驱动生物科技革新的核心力量。自2011年成立以来，溯源精微深耕生物信息分析领域，利用自主研发的BinBash科学计算平台及阿里云的弹性计算与存储解决方案，成功克服了数据处理上的瓶颈。通过与阿里云的合作，公司实现了大规模数据的高效处理，将原本耗时数月的任务缩短至几天乃至几小时。此外，灵活的资源调配能力和按需付费模式极大地降低了计算成本，使溯源精微得以提供精准高效的基因组分析服务。

2025-05-22 15:16:01 746

原创【云故事探索 | No.5 】：PETKIT小佩，科技与爱，共绘宠物智能生活新篇章

在数字化浪潮中，中国宠物行业蓬勃发展，国内养宠规模已超2亿，形成千亿市场。成立于2013年的PETKIT小佩，专注智能宠物用品，服务遍布40+国家。面对618、双11等高峰挑战，阿里云ECS弹性扩容助其稳定运行。借助阿里云全球化部署能力，小佩成功出海。最新可视喂食器结合AI算法与OSS存储，提升用户体验。未来，双方将进一步探索AI大模型在宠物行业的应用，持续优化养宠体验。在这个数字化转型的时代，科技不断地改变着我们的生活，而宠物行业也不例外。

2025-05-22 15:14:47 1185

原创【云故事探索 | No.4 】：千寻位置，时空智能赋能行业数字化转型

千寻位置，成立于2015年，利用北斗卫星系统及全球5000多座增强站，提供厘米级定位服务。该公司借助阿里云的计算能力，为汽车、农业等多个行业提供高精度时空智能解决方案，推动行业转型升级。千寻已完成超130亿元估值的A轮融资，展现了其在时空智能领域的领先地位。通过云上部署，千寻优化服务质量和市场扩展，应对突发流量，计划进一步全球化并应用AI技术。阿里云的支持对于千寻的成功至关重要，双方合作将时空智能服务推向国际。

2025-05-22 15:14:09 1158

原创【云故事探索】NO.3：智慧出行，云思妙想，看享道出行如何打造智能交通新业态

作为上汽集团的移动出行品牌，享道出行在阿里云的帮助下，仅用5天完成核心业务搬栈，成为首个使用阿里云PolarDB的大型出行平台。如果我们只是像在使用线下机房那样去使用公有云资源，而无法利用云的特性去设计应用系统，不对云上架构及云服务精细化治理，那么业务上云的价值将会持续被削弱，最终不但无法支撑好业务，反而会带来巨大的运营开销及账单。作为上汽集团的移动出行战略品牌，我们服务于千家万户，为用户提供全方位的出行服务，包括网约车、企业用车、个人租车以及出租车等业务，致力于打造一站式的出行解决方案。

2025-05-22 15:13:34 843

原创【云故事探索 | No.2 】：引领汽车行业智能进化，看朴数智能如何重塑数字营销版图

朴数智能，一家专注AI自动化的科技公司，借助阿里云的云服务，尤其是云手机和桌面云技术，成功实现业务的快速增长和数字化转型。在阿里云的稳定性和高效支持下，朴数智能应对业务弹性需求，提升了运营效率。双方在“客户第一”的理念上达成共识，形成紧密合作，共同面对数字化时代的挑战，共创未来。阿里云不仅是技术提供者，更是朴数智能成长的伙伴，一同解锁了数字化转型新篇章。

2025-05-22 15:13:00 542

原创【云故事探索】No.1：看森马服饰，在阿里云上如何用AI实现创新？

在数字化转型的浪潮中，森马服饰通过阿里云的Serverless解决方案，特别是函数计算技术，成功将AI技术融入其核心业务流程，实现了从设计到营销的全链条智能化升级。面对AI技术落地的高成本、长决策周期和复杂运维等挑战，森马利用阿里云的弹性GPU算力和一键部署功能，显著降低了初期硬件投入和运维难度，将服装设计时间从3天缩短至30秒，极大提升了设计效率和市场响应速度。此外，森马还通过AI技术优化了供应链管理和个性化推荐，增强了用户体验和市场竞争力。这一案例展示了云计算和AI技术如何助力传统行业实现数字化转型，提

2025-05-22 15:12:00 1090

原创 5 步教你创建大模型自定义插件

我们以万相文生图 V2 版模型为例，构建一个文生图的自定义插件，并将该插件应用在工作流中。先来看下万相 2.1 文生图效果，语义理解更加准确，效果更好，支持任意分辨率和比例，更多信息，可以百炼的官方文档：查看文档[2]。选择应用组件-自定义插件，新建自定义插件，并填写相关参数。🚩 Authorization 对应的 Bearer 信息。格式为：Bearer APIKEY，API KEY 右上角点头像可以查看。🚩 插件 URL:至于参数为啥这么填？是因为官方文档中，这个模型就是这么调用的。

2025-03-21 10:24:39 1085

原创大模型推理框架 RTP-LLM Embedding 技术揭秘

我们基于 RTP-LLM 实现了 Embedding 框架，支持部署 Transformer 结构的 Embedding 模型及其下游任务（Reranker/Classifier），在请求上支持 HTTP/ARPC/GRPC 协议，在部署上支持用户使用 SentenceTransformer 自定义后处理逻辑。Embedding 引擎已服务了淘宝主搜等多个在离线场景，并成功度过双十一洪峰。

2025-03-20 10:17:49 1712

原创一招解决数据库中报表查询慢的痛点

DuckDB【1】【2】是一款面向嵌入式分析场景的高性能开源列式关系型数据库，专注于复杂 SQL 查询的加速与大规模数据分析（OLAP）。该项目由荷兰国家数学与计算机科学研究院（CWI）的 Mark Raasveldt 和 Hannes Mühleisen 主导开发，于 2019 年正式开源，凭借其卓越的 AP 性能与轻量级设计，迅速成为数据科学和边缘计算领域的热门选择，月下载量超百万次。

2025-03-12 10:14:57 1688

原创一文读懂！多语言大模型数据研发在大模型时代的实战全解

从 2022.11.30 OpenAI 发布 ChatGPT 3.0 后，大模型呈现大爆炸式发展，AI 的重要性一下子大提升，经历了拉资源、AI 创业公司、大厂提升到战略高度、百模大战、大规模推理应用。而这一切都离不开数据，训练数据成为模型效果的核心要素之一。在 AICon(全球人工智能开发与应用大会)也经常会有大模型数据相关专题技术分享。

2025-02-12 10:00:30 1324

原创提示词工程的十大认知误区

提示词工程是和大语言模型沟通的桥梁，是一门关于提问的艺术。尽管看似简单，但在实际应用中却充满挑战。我们需要深入理解模型的能力和局限性，并根据不同的场景灵活调整提示词设计，以实现最佳效果。提示词工程的核心不在于复杂的框架或大量的示例，而在于如何精准传达任务需求，并通过持续优化提高模型表现。避免常见误区，掌握提示词工程的核心技巧，能够帮助我们更好地利用大模型的潜力。同时，重视用户输入的质量以及不断调优提示词的能力，也是提示词工程成功的关键。

2025-02-07 09:50:53 1265

原创 1 行命令引发的 Go 应用崩溃

以上就是 Go 自动插桩工具在使用 go build -race 时出现崩溃的分析全过程。通过对崩溃内容和调用链的排查，我们找到了产生问题的根本原因以及相应的解决方案。这将有助于我们在理解运行时机制的基础上，更加谨慎地编写注入到运行时的代码。

2025-01-17 10:05:50 1396

原创 OpenAI 故障复盘 - 阿里云容器服务与可观测产品如何保障大规模 K8s 集群稳定性

Kubernetes(K8s)架构已经是当今 IT 架构的主流与事实标准（CNCF Survey[1]）。随着承接的业务规模越来越大，用户也在使用越来越大的 K8s 集群。Kubernetes 官方建议的最大集群规模是 5000 节点。甚至，如 OpenAI 通过技术优化，曾将 K8s 集群扩展至 7500 节点（Scaling Kubernetes to 7,500 nodes[2]）。这种千级别节点的大规模 K8s 集群，会容易引起分布式系统内部瓶颈，但也增加了系统的脆弱性。

2025-01-08 11:20:19 1480

原创如何提升大模型的“深度思维能力”

人类的思考可以是瞬间的，也可以是漫长的，尤其在面对棘手问题时，人类需要更多时间。这种特性大大提升了人类思维的潜力。当我们面临困难问题时，人类会尝试“分析-反思-创新”的链条，从而花费很长的时间来获得更为可信的答案（亦或是更美的答案，这是另一个问题，暂时不在本章中讨论）。从大模型的计算过程而言，我们很难相信它能够不经过思维过程的训练就获得思维能力，事实上我们可以认为，大模型获得思维能力的最佳路径也是通过显性的文字（或者图像）来完成，深化大模型的思维能力，一个可能而合理的手段是通过模拟思考。

2024-12-26 14:23:30 2071

原创 HNSW 分布式构建实践

文章总结了HNSW算法在大规模向量检索中的应用挑战及优化方案，特别是通过分布式构建和分治策略显著提高了索引构建效率和查询性能。

2024-12-11 10:11:51 1507

原创关于大模型语料的迷思

人类对语言的理解，不仅仅是沟通的工具，更是感知世界的方式。20 世纪哲学家路德维希·维特根斯坦曾提出：“语言的界限即是世界的界限。”在他的观点中，语言不仅是传递信息的媒介，更是人类思想和意识的边界所在。我们通过语言表达想法，交流信息，描述世界，思考未来。正因如此，语言成为了探索智能问题的核心。如果存在一个语言中没有的概念，我们甚至难以意识到它的存在，亦或者如果它存在我们一定会尝试对其定义，这也就保证了存在的概念一定存在于语言中。

2024-11-20 14:04:56 903

原创白话文讲解大模型｜ Attention is all you need

2017/06/12Google、多伦多大学所有 LLM 的始祖，迈向 NLP 新时代的基础架构传统的序列转换模型使用复杂的循环或卷积神经网络，包括编码器和解码器。表现最好的模型会透过注意力机制连接编码器和解码器。作者团队提出了一种新的简单网络结构，Transformer，完全基于注意力机制，不再使用循环和卷积。在两个机器翻译任务上进行实验，发现这些模型在质量上的表现优越，并且更容易进行平行运算，训练所需时间明显减少。

2024-11-07 11:04:33 1036

原创 NativeCrash 率从万分位降到十万分位，我做了这几件事...

在App开发过程中，崩溃率是衡量App稳定性的关键指标。因为App崩溃不仅仅影响用户的即时体验，更对用户留存率构成了潜在的威胁。它如同一颗隐形的定时炸弹，随时可能引发用户体验的灾难。App崩溃分为Java Crash和Native Crash 2种。

2024-10-25 11:13:18 1274

原创从一个事故中理解 Redis（几乎）所有知识点

从上面的例子可以看出，Redis 的内存几乎被缓冲区占用殆尽。以下是具体的结论：当前内存使用 (used_memory) 已经接近最大内存限制 (maxmemory)，即 1.02 GB 接近 1.00 GB 的限制。内存开销 (used_memory_overhead) 很大，主要被客户端普通连接使用（可能是输出缓冲区），而实际的数据仅占用了很少的内存。分配器和 RSS 碎片率 (allocator_frag_ratio 和 mem_fragmentation_ratio) 较低，表明碎片不是问题。

2024-10-16 17:30:42 1517

2021阿里研究生态报告集

空空如也