- 博客(1315)
- 收藏
- 关注
原创 淘系技术,实力为2019年双11而战!稳!
今年,双11走到了第11个年头,史无前例的,阿里经济体内有49支技术团队共同参与作战,也是第一次,双11的核心系统将100%跑在云上,这无疑让今年的双11技术作战充满了更大的挑战。正如2019年双11技术团长平畴(汤兴)说的“「善战者,无智名,无勇功」,这是我们技术人最高的境界”。我们一起捍卫了阿里技术人的荣耀,一个字 “稳”!年年双11,回回新玩法,“在吗,盖楼吗?”成为了好友聊天的日常,每天蹲...
2019-11-12 00:38:06 22292 7
转载 营销大促会场视觉改版体验优化
营销会场一直是大促活动的标志性产品,伴随大家走过了每一个“双11”、“618”;如今淘宝的活动更加丰富频繁,我们也一直在为会场这个成熟的产品持续做优化升级。部分历史会场截图今年,我们对营销会场做了一些至关重要的优化,分收敛、统一、提效三个阶段逐步实现,解决了诸多历史问题的同时也融入了我们对于会场新的思考。会场设计优化的三个阶段收敛:删繁就简会场是通过模块搭建的方式来实现的,模块会在不同活动中反复使...
2025-01-13 17:08:08 9
原创 AI对研发工作的多维度助力:以聊天室项目为例
在当今快速发展的技术领域,AI 已成为推动项目进展的重要力量。本文以一个聊天室项目的开发为例,详细探讨了 AI 在提升研发效率、赋能研发人员以及解决实际问题方面的多维度助力。从项目的初步构思到最终上线运营,AI 不仅显著缩短了开发周期,还降低了对研发人员技能的要求,使得项目能够顺利推进并成功应对各种挑战。此外,文章还展望了 AI 在未来研发工作中的提升方向,并提出了通过整合研发工具实现整体效率提升...
2025-01-10 21:04:35 846
转载 简化代码模块设计:两种高效编程范式
一次项目包含非常多的流程,有需求拆解,业务建模,项目管理,风险识别,代码模块设计等等,如果我们在每次项目中,都将精力大量放在这些过程的思考上面,那我们剩余的,放在业务上思考的精力和时间就会大大减少;这也是为什么我们要 总结经验/方法论/范式 的原因;这篇文章旨在建立代码模块设计上的思路,给出了两种非常常用的设计范式,减少未来在这一块的精力开销。领域模型驱动的代码范式领域模型驱动的代码范式,是围绕着...
2025-01-08 21:32:13 42
原创 Java21特性解读
当前JDK的版本已经到了23了,不过最近的LTS版本是21,刚好最近准备把直播侧serverless应用的JVM环境升级到java21(目前是11),在升级前对21的特性做一个简单的了解和熟悉,下面是个人熟悉过程中的笔记,大家可以按照每一节特性中的代码自己在本地run下,可以更快地做个了解。JDK的版本其实最近几年开始,已经是6个月一个版本了,LTS版本大概差不多间隔4-6个版本(不定),每次升级...
2025-01-06 21:22:25 948
原创 一种可复用的AI提效方案:AI点灯
在当今飞速发展的时代,AI技术正不断渗透到我们生活的各个层面,深刻改变着传统的工作方式和生活模式。面对这一重大变革,我们不能被动观望或抗拒,而应积极拥抱AI,将其作为成长的助力。只有与AI协同发展,才能在这场技术革新的浪潮中立于不败之地,顺势而为才能事半功倍。大模型的典型特征强项:1. 自然语言理解与生成2. 广泛的知识覆盖3. 高效的文本处理4. 学习与适应5. 计算能力强弱项:1. 理解与推理...
2025-01-03 17:20:58 1117
原创 淘宝获2024年度CCF技术发明一等奖
2024年9月28日,中国计算机学会2024年度“CCF科技成果奖”评选结果公布。淘宝联合中国科学院计算技术研究所、中国科学院计算机网络信息中心申报的《面向大规模互联网服务的协同传输关键技术及应用》获得“CCF技术发明一等奖”。获奖公示链接:https://www.ccf.org.cn/Awards/Awards/2024-09-29/830336.shtml本项目面向大规模互联网服务,研制了应用...
2024-12-31 14:01:03 240
转载 淘宝内容AI团队2024年8篇论文总结
我们是淘天业务技术内容AI团队,负责运用最新的生成式AI能力,挖掘淘宝核心用户场景(首页信息流、搜索、用增、消息等)的用户痛点问题,通过AIGC内容生成、智能交互等方式,改善用户购物体验,降低平台&商家经营门槛。团队主要研究可控内容生成、多模态大模型、人格化Agent等技术域,在图像生成、视频生成、多模态大模型等前沿技术领域有广泛的布局,并在巨浪、信息流、搜索等淘天核心内容业务场景进行深入...
2024-12-30 19:02:43 94
转载 淘宝天猫集团荣获2024中国运筹学会“运筹应用奖”提名
淘天集团自营事业部算法团队与浙大合作研发供应链优化决策引擎荣获中国运筹学会“运筹应用奖”提名。在刚刚结束的第九届中国运筹学会上,淘天集团自营事业部算法团队与浙大管理学院教授合作的项目《电商供应链运营优化决策支持系统研发与实施》荣获该学会科学技术奖“运筹应用奖”提名荣誉。中国运筹学会科学技术奖“运筹应用奖”是国内运筹学学界最具代表性的应用奖,每两年评选一次,旨在激励我国运筹学的应用与实践活动的开展,...
2024-12-27 21:16:05 44
原创 消息中间件稳定性建设之SLA浅述
最近参与了部门消息服务的架构升级和稳定性保障,以此文简单总结下当建设和负责维护中间件稳定性时必备的SLA基础知识,一并调研了目前国内外商业化的云消息中间件产品SLA相关情况,最后附上个人在维护消息中间件和支持不同业务场景时的一些通用性粗浅思考,有不恰当的地方欢迎大家探讨交流。SLA基础概念无论你是一名个人云开发者,正在众多云服务提供商的套餐和支持方案中进行比较和选择;或是作为企业的采购负责人,评估...
2024-12-25 20:41:43 688
原创 Weex购物车长列表横滑操作优化“编年史”
Weex购物车诞生已经一年有余,在长列表的交互优化上花费了不少时间,本篇文章重点回顾一下长列表下横滑操作的优化历程。前情提要横滑交互是一个需要复杂描述的过程, 体验感觉使用文字较难描述,故本文有大量的对比视频,请放心食用。另外先在此列举下基本概念及操作的代称,便于后续描述和理解。代称操作列表一个长的,可以竖向滚动的列表卡片列表里一个个竖向排列的子项横滑手指在卡片上进行的左右滑动操作竖滑手指在列表上...
2024-12-23 20:09:31 1084
原创 AIGC在生鲜领域的落地应用
随着人工智能生成内容(AIGC)技术的快速发展与广泛应用,生鲜电商行业正迎来新的机遇。本文旨在简述2024年AIGC在生鲜领域的实际应用。特别是聚焦于生鲜领域业务,通过文本、图片以及动图等多种表示形式,探索生鲜商品更优质且契合场景需求的表达范式,并简单介绍相应的技术实现方案。背景立足于较为有特色的生鲜行业,为了在竞争激烈的市场中脱颖而出,提高消费者购买欲望,平台需要多种直观且富有吸引力的方式来展示...
2024-12-20 19:31:57 378
原创 低成本增量计算:大数据处理的新趋势
自"三驾马车"伊始, 大数据处理技术已经发展了二十年。在前十年中, Hive+Spark 这套离线处理技术就已经基本完善; 近十年来, Flink的快速发展又有效地解决了实时处理的问题。然而, 低成本的近实时处理依然面临挑战。近来, 随着业界对近实时处理及流批一体架构的需求愈发强烈, 增量计算开始重新被关注。Flink在1.20中推出了MaterializedTable(MT) 来统一流批两种...
2024-12-18 17:47:37 846
原创 内容AI: 目标驱动的图像生成
现有的文生图技术已经较为成熟,Flux、SD 3.5和Midjounery等最先进文生图模型已经可以生成足够“以假乱真”的图像。在淘系内部,现有文生图模型已经被应用于各种需要创意图像的业务,例如 AI 会场等。但是,文生图技术的缺陷在于文本作为控制条件的指导性仍然较弱--例如我们无法仅利用文本生成一个带有“GitHub”样式的包包的营销图(见图1)。图1. 现有文生图模型与本文方案效果展示然...
2024-12-16 18:47:20 771
原创 MyBatis布尔字段映射陷阱全过程解析
在开发过程中,我们常常会遇到一些看似简单却令人困惑的问题。本文记录了一次将 boolean 改为 Boolean 后,MyBatis 插入数据时出现的意外情况。本文不仅逐步揭示了问题的根本原因,还提供了解决方案,并强调了在开发中遵循规范和仔细排查问题的重要性。背景为了实现某个功能,需要为已有的表新增字段,其中有一个字段需要表达的含义是:是否有对话条数。加字段要遵守规范,咱就去看了《阿里巴巴开发规...
2024-12-13 18:25:08 853
原创 JDK11升级后内存问题解析
今年天猫国际技术团队计划从4月份开始先升级并应用JDK11。升级后台系统时一切比较顺利,但升级核心应用时出现了两个意外情况,也是比较典型的问题,这里记录一下。问题一在4月份的非核心应用升级过程中出现的问题有一定的沉淀,此次核心应用升级除了包版本冲突等常规问题,升级过程中一切顺利,预发环境也顺利部署完毕。预发部署一段时间后问题注入。问题表现为预发机器重启完毕后,过一段时间就会出现服务不响应,cpu...
2024-12-11 18:12:00 1169
转载 大模型“翻车”背后的技术原理及解决方案
本文将从两个常见的大模型翻车问题入手解析这些问题背后体现的大模型技术原理(Tokenization与预测下一个Token),并解释了为什么会导致这些问题,接着我们利用CoT(思维链)方法解决这些问题并基于上述原理试图剖析CoT方法起作用的可能原因,最后提出【理由先行】风格这一简单有效的Prompt Trick!前言前段时间,我们经常能在互联网上看到有关大模型“翻车”的常见问题,其中最为典型的莫过...
2024-12-09 18:24:52 142
原创 Flink+Paimon实时数据湖仓实践分享
随着 Paimon 近两年的推广普及,使用 Flink+Paimon 构建数据湖仓的实践也越来越多。在 Flink 实时数据开发中,对于依赖大量状态 state的场景,如长周期的累加指标计算、回撤长历史数据并更新等,使用实时数仓作为中间存储来代替 Flink 的内部状态 state 是非常有必要的。本文主要分享了使用 Paimon 作为实时状态存储,并在 Flink 中通过 Lookup 维表 ...
2024-12-06 21:08:17 1796
原创 淘宝直播间智能化升级:基于LLM的学习与分析
自营直播应用技术团队负责的业务中,淘宝买菜的直播业务起步较晚,业务发展压力较大,业务上也就有了期望能够对一些二方的标杆直播间进行学习,并将其优点应用到自己直播间的需求。最初 - 人海战术,学习PK业务侧最直接的想法是发动人海战术,通过人工的方式去观看各个直播间,提炼其中的优点,进行互动分享:运营TL提出的要求:运营小二人工学习的范本:效果不错。但是人工学习需要大量的人力保障,就会导致运营基本每天都...
2024-12-04 17:44:25 741
原创 会员场景端快照与ER缓存优化实践
端缓存&端快照的方案是基于客户端容器所做的一套解决页面白屏缓存优化方案,ER缓存旨在边缘节点做的一套首chunk的缓存优化方案,减少html的回源耗时。那么具体点,什么是端缓存&端快照,以及什么是ER缓存呢?这里将做一些基本的概念说明。所谓端缓存,顾名思义,就是客户端缓存,缓存的内容五花八门,可以是默认的首chunk缓存,也能是经过逻辑加工的html片段缓存。端快照就是经过代码逻...
2024-12-02 18:42:03 931
原创 搭建业务的性能优化指南
这是一篇搭建业务优化的心路历程,也是写给搭建业务的性能优化指南。前言直到今天,淘内的页面大多都迁移到了 SSR,从我们终端平台 - 搭建研发团队的视角看,业务大致可以分为两类 —— 搭建派和源码派。这两者互不冲突,更多是基于业务灵活运营和开发维护成本的考量,大致遵循以下原则:而且已知搭建页面性能较差,源码页面性能更好的情况下,我们又加入了“性能”这个维度,构成了一个性能优化的“不可能三角”,即...
2024-11-29 18:18:49 1270
原创 NeurIPS 2024 Spotlight | 一种高可控细粒度多参考图的人脸面部合成方案
本文介绍了一种全新的基于扩散模型的面部局部替换方法,能够从多个参考图像中提取面部特征并进行无缝融合,生成高保真度的人脸图像。该方法解决了现有面部替换技术中存在的挑战,比如如何高效且有效地将多个参考图像的特征融合在一起,如何保持特征之间的协调性,并在保持高保真度的前提下实现高效融合等问题。该方法在面部局部替换技术领域具有广泛的应用前景。NeurIPS介绍神经信息处理系统大会(Conference o...
2024-11-27 19:32:19 1080
原创 Open-Set目标检测算法的原理与实践
在深度学习领域,目标检测算法用于识别和定位图像中的特定对象,是计算机视觉中至关重要的任务。然而,传统的目标检测算法只能在有限类目的数据集上进行推理,这是因为训练集中的类别是有限的,推理时也只能识别这些有限的类目,限制了其应用范围。因此,我们需要使用开放集(Open-Set)检测技术,开放集检测可以在推理过程中识别训练时未被见过的类目。为了丰富交互方式,我们还将采用视觉定位(Visual Groun...
2024-11-25 19:38:43 787
原创 AI助手:淘宝交易研发效率提升50%
在当今快节奏的互联网环境中,交易系统的复杂性和高要求给研发团队带来了前所未有的挑战。从问题排查的低效到测试数据构造的繁琐,再到团队经验的流失,每一个环节都可能成为研发效率的瓶颈。本文将探讨如何利用AI技术,特别是AI Agent,来破解这些难题,提升研发效率。通过具体的案例和实践,我们将看到AI Agent如何在问题排查、测试数据生成和知识传承等方面发挥重要作用,成为工程师们高效工作的“神队友”。...
2024-11-22 18:32:09 833
原创 MNN在大模型端侧部署上的探索
随着移动端(手机/平板等)算力、内存、磁盘空间的不断增长,在移动端部署大模型逐渐成为可能。在端侧运行大模型,可以有一系列好处:去除网络延迟,加快响应速度;降低算力成本,便于大规模应用;不需数据上传,保护用户稳私。概述为了在更广泛的设备上部署大模型,MNN团队开发了 MNN-LLM / MNN-Diffusion,合称MNN-Transformer ,支持大语言模型和文生图等AIGC模型,具有如下特...
2024-11-20 18:25:48 909
原创 淘宝乐园新人权益活动设计与实现
随着淘宝APP逐渐转型为生活方式APP,淘宝乐园作为互动游戏矩阵的重要入口,承担着提升用户留存与分发能力的重任。本文详细介绍了淘宝乐园新人权益活动的业务背景、需求分析与方案设计,重点探讨了消息传递与更新、引导与订阅、任务体系以及动画组件开发等通用能力的建设,旨在通过这些技术手段提升用户体验,实现用户与第三方厂商的双赢。业务背景近些年,淘宝APP整体由单纯的购物APP逐步向生活方式APP转变,APP...
2024-11-18 18:51:06 773
转载 淘宝亿级图片素材调度与处理的工程实践
因为业务需要,笔者有幸参与设计和开发了涉及数十亿量级的图片素材调度、处理和索引使用的平台-产业AI素材库,在平台的建设落地过程中,踩了许多坑,也有了一些工程落地上的实践总结,希望分享给大家。导入实践总结素材库建设之初,涉及的图片素材单次导入不过百万,不过随着算法侧针对图片素材训练的模型的“胃口”急速增长,单次图片素材导入的需求直接突破到了数十亿级。在实践中发现,最开始完全借助于dataworks平...
2024-11-15 18:32:38 126
原创 全面解析:从AI原理到模型演进及代码实践
本文从原理、模型演进到代码工程实践,全面探讨了人工智能领域的核心内容。通过深入浅出的讲解,笔者不仅介绍了神经网络的基本原理,还详细阐述了Transformer模型的实现机制及其在自然语言处理(NLP)中的应用。文章结合了实际案例和代码示例,旨在帮助读者理解AI技术的全貌,并能够在实际项目中应用这些知识。初探神经网络(原理)▐神经网络讨论ChatGPT前,需要从神经网络开始,看最简单的“鹦鹉学舍...
2024-11-13 20:53:08 973
原创 2024年天猫双11四大技术亮点发布
第16年天猫双11刚刚落幕,在互联互通、品牌爆发、营商环境持续向好的大背景下,围绕“用户为先、AI驱动”的战略目标,技术持续保持突破与创新,给消费者带来更好的体验,帮助商家实现更好的经营。体验、稳定、效率,是技术先进性的锚点,是我们在双11中技术交付的首要责任,也是技术成功的核心标准。“丝般顺滑”,既要优化用户基础体验,也要带来体验大升级今年,手淘整体端基础体验优化进展明显,核心导购、交易链路...
2024-11-12 15:26:53 895
原创 提升业财系统测试充分度的实践
在软件测试领域,"测试充分度"一直是一个备受关注的难题。本文探讨了如何提升业财系统测试的充分度,以减少线上问题的发生。文中介绍了测试充分度的概念及其重要性,并提出了测试充分度的建模方法,包括测试场景的建模和用例设计模型等。认识测试充分度网上曾经统计过测试领域的“Top Hard Problems”,其中“测试充分度(Test Sufficiency)”高居榜首。软件测试行业发展到今天,测试充分度一...
2024-11-08 19:23:07 1100
转载 深入Java泛型及其设计原则
在日常开发中,必不可少的会使用到泛型,这个过程中经常会出现类似“为什么这样会编译报错?”,“为什么这个列表无法添加元素?”的问题,也会出现感叹Java的泛型限制太多了很难用的情况。为了更好的使用泛型,就需要更深的了解它,因此本文主要介绍泛型诞生的前世今生,特性,以及著名PECS原则的由来。泛型的诞生▐背景在没有泛型之前,必须使用Object编写适用于多种类型的代码,想想就令人头疼,并且非常的不...
2024-11-06 18:20:51 169
原创 将淘宝直播间融入H5页面的技术探索
在数字化转型的浪潮中,如何将直播间无缝融入H5页面,成为提升用户体验和业务转化率的关键挑战之一。本文探讨了这一创新实践,通过技术解析和实际案例,展示了如何在H5页面上实现直播间的高效嵌入,不仅增强了用户的沉浸式体验,还显著提升了业务指标,为开发者提供了宝贵的参考和借鉴。背景先看图说话 —— 猜猜这是一个直播间还是一个H5 页面?认真审题的朋友,闭眼猜肯定猜到是 H5 页面。不认真审题的朋友,再...
2024-11-04 18:36:25 902
原创 大模型技术在淘宝生鲜审核场景的应用
随着多模态大模型技术的不断进步,大模型的应用范围得到了极大的扩展,其中较为重要的一个分支便是审核场景。现业务域内有较多场景需要人工进行凭证审核,这些审核工作不仅需要耗费较多的人力成本,效率上也有较大的提升空间。困境凭证审核工作主要有以下几项任务:1. 确定商品品种2. 确定商品是否存在某些质量问题(缺陷识别)3. 确认出现问题商品比例这些任务与商品类目强耦合,由于类目众多,且涉及到的商品质量问题更...
2024-11-01 20:05:26 1140
原创 OpenAI o1模型的前世今生
记得很久之前看过科幻作家阿西莫夫的一篇短篇小说《最后的问题》[1],大概是讲根据热力学第二定律,宇宙作为一个独立的系统,会因为熵增而最后归于热寂。于是人类去询问最强大的人工智能AC宇宙的终极问题:如何逆转熵增。但直至人类灭亡,AC仍在思考答案。然后就是最精彩的部分,当然要粘原文:“经过了一亿兆年的运行虚耗,所有的恒星和星河,逐一地泯灭消亡。太空变得漆黑一片,黯然没有一丝亮光。人最后一丝的心灵与模融...
2024-10-30 19:04:11 1128
原创 QuickJS的垃圾回收算法
内存管理,对于C/C++选手来说,是个再熟悉不过的名词。malloc/free,new/delete,一旦使用不当,就会遇到mem leak,uaf,double free等等内存问题。但是对于其他高级语言例如JAVA,JS等,似乎从来不需要关心他们创建对象的死活,是这些语言可以违背计算机的规律么?当然不是,只是这些语言底层的编译器/虚拟机自动对内存进行了管理,我们一般称之为GC(garbage ...
2024-10-28 18:41:17 1052
原创 FlinkSQL之temporary join开发
在实时开发中,双流join获取目标对应时刻的属性时,经常使用temporary join。笔者在流量升级的实时迭代中,需要让流量日志精准的匹配上浏览时间里对应的商品属性,使用temporary join开发过程中踩坑不少,将一些经验沉淀在此文中,供各位同学参考与交流。背景介绍关于实时flinkSQL的双流join的背景知识可以先阅读以下文章:https://www.51cto.com/articl...
2024-10-25 18:42:31 1248
原创 深入RAG:知识密集型NLP任务的解决方案
在当今知识密集型任务日益增多的时代,如何有效地利用外部知识来增强语言模型的生成能力成为了一个重要的研究方向。RAG技术应运而生,通过从外部记忆源中检索相关信息,RAG不仅提高了模型生成的精准性和相关性,还解决了大型语言模型在数据隐私、实时数据处理和幻觉问题等方面的局限。本文将详细介绍RAG的工作原理、应用场景、限制及挑战,帮助读者更好地理解和应用这一前沿技术。什么是RAG?RAG(Retrieva...
2024-10-23 18:41:34 1513
转载 从DDD视角探讨代码复用的成本及效益
刚工作时,代码写得不太好,师兄每次 CR 代码,总是会指着屏幕里的一坨代码说 “把它抽成一个类或函数”;“为什么呢?写在一起不是挺好的吗?” 我反问道;师兄老道地回答 “为了方便复用”;我仿佛若有所得,回到工位上把那些很长的代码全部抽象成了类和函数,感觉今天又有所成长。但是随着工作经验的增加,我对此又产生了困惑。随着业务发展得越来越复杂,我当初写的那个类被大量复用,为了适应不同的场景,里面充满了 ...
2024-10-21 18:16:17 174
原创 淘宝AI试衣素材高效写入IC实践
随着电商行业的快速发展,用户对于在线购物体验的要求也在不断提高。特别是在服装领域,用户希望能够更加直观地了解商品的实际穿着效果。为此,淘宝试衣项目应运而生,通过AI技术为用户提供个性化的试衣体验。本文将详细介绍淘宝试衣项目的背景、现状、合作场景以及技术实现,特别是如何通过定时任务驱动的试衣素材高效写入IC(商品中心)拓展结构,提升用户体验和转化率。背景▐现状服饰属于非标商品,用户无法直观的通过...
2024-10-18 20:33:17 807
原创 动态量化:大模型在端侧CPU快速推理方案
作为一款高性能的推理引擎框架,MNN高度关注Transformer模型在移动端的部署并持续探索优化大模型在端侧的推理方案。本文介绍权重量化的模型在MNN CPU后端的推理方案:动态量化。动态量化指在运行时对浮点型feature map数据进行8bit量化,然后与8bit/4bit的权重数据做矩阵乘法并将结果反量化为浮点类型输出。虽然动态量化方案设计的初衷是在移动端高效地推理LLM模型,但方案本身适...
2024-10-16 19:05:00 1419
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人