自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(516)
  • 收藏
  • 关注

原创 前沿重器[80] | DeepTravel:滴滴的 RL Planning 落地实践

这篇论文要做的任务的背景是一个AI旅行助手,举个例子,一个需求“带爸妈去云南轻松玩5天”,直观的任务就是交通和酒店,内部还需要规划出路线、行程等,对于用户不满意或者和实际有差异的部分(如过于紧凑、天气、航班原因影响),可以进行修改,另外,还希望能考虑到个性化,识别并利用用户的隐含需求,如偏好、经济能力等。RL在Planning几乎是必然的,从文章的引文(业界共识)和实验结果(实验结论)来看,RL的学习更像是规则的学习而并非模仿,因此能学到更复杂的知识,目前的技术看,涌现还真就得指望RL。

2026-01-25 21:00:45 629

原创 前沿重器[79] | 2025,Agent元年:一文看懂智能体的技术全景与落地关键

,我提到了Agent是大模型落地的殊途同归,从大家的分析推演,逐步把大模型的整个应用推进到了一个共识层面,即Agent的这个模式,虽然这个概念并未形成完整意义的边界(大家也多少能感受,上面的很多东西,都存在“换个说法”、“换个视角”之类的描述),但是这个应用模式已然形成,现在来回顾一下2025年我的视角下的一些关键性工作吧。当然,这里值得强调的是,不是说RAG就没用了,RAG会成为后续系统的一部分,继续发展,所以我这里用的词是,“跳出”,而并非抛弃。通用的是最快的,但定制的才是最好的。

2025-12-28 21:00:23 333

原创 心法利器[148] | 如何面对算法工作里的脏活

举个例子,数据清洗,有经验的伙伴都知道,只有高质量的数据打底,模型才有可能有个不错的效果,这是必要条件,所以清洗和标注,很有意义,尽管难受,我们耐着性子做,仍旧会得到不错的结果,相反,如果数据的质量不行,粗制滥造还有一堆错误的数据,那在模型层面费多大劲,都得不到好的效果,越是对现实场景有足够的了解,越会发现,数据的问题才是制约模型触摸上限的短板。继续提升效率的思想,除了交给机器干,还可以交给专业的人干,例如和其他团队或者人合作,看有没有已有的东西,或者正好要做,那就可以分担,不要都闷在手里。

2025-12-21 21:01:14 558

转载 提问收集-1221

看看大家有什么问题有兴趣的,可以在评论区里提问,21日,就是今天,晚上我基本都会在线,在这个评论区里提问互动,部分比较大的问题我会在后面的文章里进行总结回复。我的视角看,25年的技术视野聚焦变化无疑是快速的,深度思考、基座升级,RAG逐步淡出媒体高频词,Agent、情感、code、deepresearch、memory、生成式推荐之类偏应用落地,围绕大模型开展实践尝试的工作都成为大家尝试和出成果的方向,让人应接不暇。职场、工作、成长的一些问题,我以前和最近都聊了很多了(包括今天发的这篇)。

2025-12-21 21:01:14 25

原创 心法利器[147] | Agent,是大模型落地的殊途同归

当然,与之对应的,Bert这个级别的模型,做不了现在大模型能做的事,在bert出来后的三年后其实就已经出现了停滞,该探索的都探索的差不多了,时间线大概是,19年Transformer发布(Attention is all you need论文),到了22年左右,开始迷茫,没有新的突破和创新点了,直到23年下半年,才有了chatgpt,带来新的突破。垂直领域的深入知识。大模型刚出来的时候,大家总会觉得非常惊艳,很多功能看起来确实能完成的不错,通过简单的描述,他就能把问题的答案娓娓道来,内容翔实可靠。

2025-12-13 21:00:35 922

原创 前沿重器[78] | 美团WowService(下):多智能体和评估实现闭环

一般的智能体项目,需要通过标准化用户输入,才能触发子智能体完成实际任务,这个工作在老一代被称为意图识别,在Agent被称为Router或者Planner,此类系统架构依赖多个子场景模型,缺乏跨场景切换的灵活性,此外智能交互系统在这里是一个被动的响应,对用户的要求高,沟通效率低,这对问题的解决会有些阻碍。评价不仅是针对于最终的效果好坏,还贯穿在模型训练更新的全过程。不过从技术设计的角度,这些大体的框架,对自己的宏观能力提升,还是非常有价值的,我自己感受的提升还是挺明显的,希望这篇文章的分享对大家也有收获吧。

2025-12-07 21:00:18 590

原创 前沿重器[77] | 美团WOWService(上):四阶段训练打造高质量可维护的对话模型

在通用能力和领域能力的平衡上,作者考虑到灾难性遗忘(原有知识被覆盖)和数据分布迁移(缺少原始预训练语料的细粒度信息,数据质量不足,导致原始通用能力下滑),提出了精选高质量通用数据、自适应数据配比两个方案来解决,尤其是后者,作者通过小比例模型的效果实验推理出最优比例,最终在大模型的训练使用该比例,结果发现是有收益的。这里的很多内容,都挺具有实践意义和价值的,但单独拿出来,除了整个框架本身之外的细节,都不足以发论文,工作量和创新性都不够,而现在这篇论文以框架和整体设计思路的方式组装放出来,就很合适。

2025-11-30 21:00:23 711

原创 心法利器[146] | 生成式搜索:惊艳但难落地的技术浪漫

说实话,一开始看生成式的这种应用,还是非常让人眼前一亮的,然而在我推导分析的时候就发现了这个数据更新的问题,这导致目前尽管有生成式搜索的研究在深入,但是在真正落地的是时候,仍旧无法全面推进和替代,更多是退化为一些传统搜索整个流程里的一部分,“数据更新”一直是萦绕在深度学习模型,尤其是现在版本下大模型的问题,我们很难精准的编辑大模型内存储的内容,而且伴随的可能还有遗忘的风险,这让我们如履薄冰,这块的研究肯定还有价值,也需要我们继续探索。随着知识库更新,查询的准确度提升,总能找到数据库内最接近的部分。

2025-11-23 21:01:00 900

原创 心法利器[145] | 论文VS应用:算法工作的理想与现实,差距究竟有多大

简单的,可能是比较会提到比较明确的约束,我们就直接按着标准结构化查询都能搞定的,例如前面提到的“预算200,帮我选一个这个价位比较合适的键盘”,复杂的反而是有些模糊的要求的,例如“想要轻一点的键盘”,毕竟产品参数内更多是数值,没有轻重概念,再进一步,甚至里面没什么要求的,“最近新品”,甚至甚至“你们有啥推荐的吗”。中间的核心算法部分,数据刚进来的前处理,模型的部署,后面模型结果的后处理,都需要关注,除此之外,如果是结构复杂,那还有各种数据库数据的存取维护(如RAG),各个子模块之间的整合。

2025-11-16 21:20:02 875

原创 心法利器[144] | 算法工程师深度、广度与高度的成长思考

模仿是一个很简单地找到前进方向的方式,如果你对未来成长方向感到迷茫,你身边的前辈,通常就是很好的模仿对象,他具备、擅长的能力,就是你需要学习的内容,他每天的工作,可能就是你未来可能要做的工作,他可能经常和你相处,对你比较熟悉,他的建议通常也比较可靠,跟着这个模式来学习进步,你也能很快进步。技术的范围很广泛,并不可能每个领域你都会喜欢,也并非每个领域都非常热门,很多人容易被很多自媒体或者是个人喜好带偏,啥啥技术热门就去学,但实际上你的处境,目前你的环境,你未来的发展和这个东西的热门与否,你喜欢与否并不相关。

2025-11-09 21:37:25 857

原创 心法利器[143] | 算法工作太枯燥?我的热情保持心法

在这个发展快速,年龄压力又大的环境下,我们有成长焦虑是很正常的事,但我们得思考,做什么事,才叫做成长,我在沟通的时候发现,不同的人对成长的理解差异挺大的,甚至有些人可能在不经意间,已经和别的概念有所混淆了,甚至极端的,会给自己想做的事,冠以“成长”之名。找一个花点小钱的爱好,挺不错的,为自己买个不错的皮肤,定时买一套喜欢的模型,去想去的地方旅游,买几本自己想看的和工作无关的书,吃一顿好的,都非常不错,偶尔的,只需要偶尔的小放纵,让自己感受到自己赚的钱花在自己身上的快乐,那种满足感是非常好的。

2025-11-02 21:01:00 698

原创 前沿重器[76] | 让小BERT学会思考——美团大模型蒸馏新框架

文章是以电商搜索为背景去做的研究,搜索现在的大部分系统仍旧并非端到端的生成式,而且搜索场景本就要求高并发高返回,如果仍旧使用大模型,这个性能肯定非常差,小模型在做线上推理肯定是最优解,所以既要享受大模型的红利,又要应对在线高并发的要求,那大模型蒸馏到小模型就是非常关键的一种技术手段了。此处使用的是经过人工标注的高质量数据集,每个包含(query, services)的样本对,还有人工标注的推理链,训练模型生成(reason, answer)的能力,此处作者简单地给了公式,使用的是交叉熵的方式来训练的。

2025-10-26 21:00:43 875

原创 心法利器[142] | 大模型自动化标注:实战代码分享

即使是大模型标注、复核,也可能存在一些理解的偏差或者偏见,一旦出现这种偏差,标注会出现成片的错误,后续很少有机会会发现,因此,需要自己拿100-200个case再看看,弄一个人工标注的预标注准确率,留意有没有很统一的错误,确认预标注质量,只有达到够高的标准(例如文本分类大概是90%+),才能说这个标注数据集是可靠的(注意,这里哪怕全都是人工标,达到90%都是不简单的)。最容易想到的是,就是减少人力成本。这个复核,能让你知道,前面的预标注,大概是个什么效果,有个快速的把握,简单的说,差的很远,先别往下整了。

2025-10-12 21:01:27 858

原创 心法利器[141] | ​大模型学习的下一站

在前沿研究上,那些“很容易就被想到”的想法,很可能都已经被想的差不多了,还想要进一步研究,一方面需要更有深度、更多、更有花样的实验,另一方面可能要在小方向、小领域寻找新的突破点,否则难度肯定还会不小,而且除了卷脑子,还得卷算力,我的视角是感觉,类似千问那样的迭代进度,背后肯定有大量的实验,经常做实验的小伙伴肯定知道,做实验并非每次都符合预期的,甚至不符合预期的占比会更多。大部分厂的发布节奏已经慢下来了,卷榜单的卷度下降,目前大家看到的比较多的可能就是千问在有节奏高频地出,一骑绝尘,其他的似乎是慢了下来。

2025-10-07 21:01:47 727

原创 心法利器[140] | ​致校招算法新人:从完成任务到独当一面的成长路径

所以,我还是推荐大家多主动地去做一些事,而不是被大势,被团队,被需求牵着,多想想自己想做什么,能做什么,能准备什么,主动行动,无论是学习什么新知识,提前准备未来可能要用到的材料和技能,都是很有必要的,主动准备,你就不至于陷入被动,被环境推着走,毕竟推着你走的方向,并非是你想要的,而你主动走的,可控性就高很多了。把自己培养成一个能独立把一个事做好的人,例如,所谓算法,除了模型,数据要懂,评估要懂,打包部署也要了解,而不能因为自己要做某一项东西,而放弃了其他,尤其是,作为新人甚至到了后面的大头兵,都是这样。

2025-09-28 21:20:58 582

原创 前沿重器[75] | 腾讯元宝重磅出击:Agentic RAG如何让搜索“重生”

这篇文章读下来,能比较全面地了解在现在技术环境下一个比较潮的搜索产品的设计,一方面,时代变了,很多新的优化,无论是架构层面还是用户体验层面,都有很充分的体现,另一方面,又似乎万变不离其宗,query、召回、排序、后处理,模块还是这些模块,只是内部的任务更加丰富和多元化,query理解从简单的分发升级到拓展甚至后续的任务分配,召回从简单的查询内容升级成还需要召回工具等的复杂任务,ranking也有生成式的进化,后处理也有大模型的加入,以及还有反思之类的操作。大模型和搜索之间的关系是相辅相成的。

2025-09-21 21:00:26 800

转载 【招聘】大疆-中/高级计算机视觉算法工程师

有兴趣的可以投邮箱:有兴趣的可以投邮箱:

2025-09-17 08:21:47 80

原创 前沿重器[74] | 淘宝RecGPT:大模型推荐框架,打破信息茧房

从用户兴趣出发,利用已收集的标签-兴趣关联对,将商品标签映射至对应类目,建立用户兴趣与商品类目间的关联,此时就只对兴趣-商品生成解释,而不需要考虑用户和所有商品的排列组合,生成后建表记录,在线推荐时,通过当前推荐商品与用户兴趣匹配,直接查表获取预生成解释,实现毫秒级实时解释返回。因为是模块化设计,支持每个模块独立优化,效果监控比较方便,后续的上限也可以分批分点上,再一点是,推荐系统中用户和物料之间是存在更新的gap,两者隔离,各自的更新解耦,最终整个系统的可维护性也会比较强。

2025-09-07 21:00:49 893

原创 心法利器[139] | 算法方案设计:我的规范化框架与避坑要点

注意测试集,测试集我喜欢分为两类,一种是和在线分布基本一致的测试集,用来提前预演在线的实际表现,另一种是针对某个问题,专项构造的测试集,例如长难句的分类问题,例如新用户的点击率预估,再例如问答系统兜底回复的测试,一般情况我们可能更加关注前者,这是大盘的基本情况,早期的核心目标,在项目后期,这个集合更像是一条底线,后面的所有修改都不能让这条底线有变化,后者则是在解决专项问题时的一种检验,验证自己对该问题的解决情况。第二,实际的算法任务,但凡做过多一些项目的大家都知道,最终的运行效果是不稳定的。

2025-08-31 21:00:17 703

原创 心法利器[138] | 大模型如何避免“千人一面”?个性化开发的破局之道

在技术设计层面,我还是比较倾向于调出所谓Agent或者RAG的框架来思考,如何加入会更有效,而不受限于大模型系统本身,毕竟大模型也好,Agent、RAG这种基于大模型构造的结构也罢,本质都是一整套技术方案下的工具,我们不拘泥于必须使用它,而是在充分吸收的前提下,合适的时候把他掏出来用罢了,或者说,很多时候的方案设计,不经意间可能就用了这些结构,例如用户提问记忆的引入,本质也是一种RAG,只是R的内容是记忆,分析用户偏好的模块,本质也是Agent系统里面的一个“用户偏好分析Agent”罢了。

2025-08-24 21:00:15 960

原创 前沿重器[73] | 深入技术深水区:RAG与Agent如何实现精准个性化

然而,感觉对个性化的剖析和应用还是比较粗,举几个例子吧,个性化的前提是画像,画像信息的不同类型,如数值、个人信息、行为等,直接联系任务和非直接联系任务(举例,类似性别、年龄就是距离目标很远的画像信息,喜欢电脑、喜欢看动漫就是距离任务很近的画像信息),不同信息的利用价值和使用方法都有很大差异。预检索阶段主要就是改写和拓展,改写是指通过对原始query的更新,提升检索效果,常见的就是纠错消歧、加入上下文之类的,拓展则是通过提供额外的信息对搜索query进行信息的扩充,其实某种程度上和改写也有些概念上的交集。

2025-08-17 21:00:22 1007

转载 【招聘】平安科技-算法社招

熟练掌握nlp基础理论和算法,在一个或多个领域(如文本分类、情绪识别、语义理解、信息抽取、舆情挖掘等),能够独立开展研发工作。负责海量业务文本数据的分析和挖掘,包括话术质量检测、风险识别、对话摘要、关键内容提取、热点挖掘、语义理解与搜索、对话生成等。在国际顶级会议、期刊上发表论文经验者优先;有多模态内容理解、大数据、文本挖掘、推荐搜索、对话等方向经验者优先。有多模态内容理解、大数据、文本挖掘、推荐搜索、对话等方向经验者优先。熟练掌握机器学习的基础理论与算法,在推荐、搜索、对话等领域,能够独立开展研发工作。

2025-08-12 07:19:26 92

原创 前沿重器[72] ​大模型“外脑”揭秘:Context Engineering综述

有关记忆模块的质量,已经有一些评估方面的研究工作了,即回答“什么样的记忆模块是好的记忆模块”这样一个问题,例如用准确性方案来评估记忆系统对历史的记忆准确度,用recall@5来评估召回的记忆是否为所需,还有耗时、生效时间等应用层面的指标,另外也有很多特定的任务,定制来分析参考系统的记忆能力,例如LongMemEval考虑信息提取、时间推理、多会话推理、知识更新和弃权共5个维度的质量。比较统一的方法论,对一个系统的评估可以划分为两块,一个是局部,一个是整体。类似搜索的速度慢,这个反而是小头。

2025-08-10 21:01:20 717

原创 前沿重器[71] Context Engineering深度解读:范式跃迁,还是概念包装

在智能体内,我们一般都希望大模型能处理各种信息,完成好我们交给他的任务,从前面的任务拆解路由,到后续执行、汇总和回复,而随着任务的逐渐复杂,大模型需要经历的步骤也会变多,这个变多势必也会让下游的任务的Prompt变得非常长(这里已经改口叫上下文窗口了),众所周知,尽管目前大模型能够吃下很长的文本,但并不代表长文本就能具有较好的效果,而且实验发现,长文本对大模型的影响是非常严重的,存在断崖式的下降,经过总结,目前主要是这4个原因。尤其是当信息足够多,更新足够频繁的时候,一个系统内引入RAG是非常有效的。

2025-07-27 21:00:48 1000

原创 前沿重器[70] | Query优化前沿综述:核心方法解读与个人实战启示

,里面有个突出的特点——query拓展,通过多个角度的拓展,一方面能让搜索的匹配程度得到提升,另一方面能让搜索引擎找到更多有关这个话题的内容,从而提升最终结果的可靠性,在本期文章中,将给大家介绍一篇query优化的综述,为大家拓宽思路,了解query优化方面的有关技术,让大家在应用过程中能有更多有用的选择。query拓展旨在捕捉更广泛的相关信息,可以揭示原始查询中未曾显现的关联,这一过程包括分析初始查询、识别关键概念,并融入相关术语、同义词或关联想法,以构建一个新的查询,从而实现更全面的搜索。

2025-07-20 21:01:00 666

原创 前沿重器[69] | 源码拆解:deepSearcher动态子查询+循环搜索优化RAG流程

这个prompt的模板是这样的,内容相对比较常规,就是给好指令、query、路由的描述即可,这点在这个类型的项目内,即路由个数比较少的场景下,还是可以的,但是次数比较多,会因为prompt过场而导致决策质量出现差错,目前我看比较常见的策略是向量召回(以搜代分)+大模型的模式(PS:某种程度,这也算一种RAG?为了应对多次搜索的要求,整个项目内是采用了python的协程工具,看代码时,一般的搜索都是这么写的,这个就是python的协程,有兴趣的大家可以了解了解,对性能提升,CPU使用率都有好处。

2025-07-13 21:01:02 1165

原创 心法利器[136] | 算法开荒:大模型版本下高效应对碎片化需求的实战指南

我自己是已经经常用了,一些必要的分类问题,在少样本的情况下,向量召回能保证比较高的准确,同时还有比较高的准确性,如果类目还比较多而且比较杂,那更加合适,大模型一般很难吃下这么多的类目,而且性能也比较好,一些互联网环境,大模型可能适应不来,此时以搜代分的就比较可靠了,再者,最近的qwen3-embedding系列,对prompt的支持测下来还是不错的,非常建议尝试。不过要注意,时刻抱着怀疑的态度,一个是大模型搜到的东西可能和上面网上找到的类似,同时大模型也有幻觉,所以注意甄别。

2025-07-06 21:00:45 692

原创 前沿重器[68] | 北邮腾讯MemoryOS:分层记忆模式解决大模型长记忆问题(下)

这里也可以看出整个项目的简单,openai是请求大模型的组件,numpy、sentence-transformers是做一些基础计算和向量模型,faiss-gpu是单机向量召回组件,flask则是服务化的工具(不过,在现在最新版的项目下,用的是MCP,flask在项目里目前是没用上的)。实例,贯穿所有部分来作为所有信息的储存器,作为开源项目做demo是完全够用的,但作为工程项目其实是比较粗糙的,很多内容这里都是维护在本地,健壮性、稳定性、安全性都是不足的,如果要优化,有如下建议。

2025-06-29 21:00:35 901

原创 前沿重器[67] | 北邮腾讯MemoryOS:分层记忆模式解决大模型长记忆问题(上)

这篇论文的思路我挺欣赏的,具有较强的使用参考意义,能记忆通过可解释的方式进行拆解,并进行分别处理,这对很多需要多轮对话、深入了解用户信息才能回复的场景,都具有很强的价值,同时也具有很好的可拓展性,整个记忆模块的信息除了可以来源于对话,还可以来源于外界,在LPM中可以快速增补,例如一些对话式推荐的场景,可以加入用户的历史购买记录等,另外,信息的筛选思路也比较朴素,可以作为一个比较强的baseline了。在这篇文章里,作者给出的同样是一套完整的方案,这里的关键词是,分层存储和动态更新。热度的评价公式如下。

2025-06-22 21:01:01 1116

原创 心法利器[135] | 五千字聊算法工程师的成长反思(答读者问)

心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。2024年新的文章合集已经发布,获取方式看这里:再添近20万字-CS的陋室2024年文章合集更新,更有历史文章合集,欢迎下载。往期回顾心法利器[130] | RAG效果调优经验心法利器[131] | 盘点踩过大模型多轮对话的坑心法利器[132] | 大模型系统性能优化trick心法利器[133] | 为什么我的大模型效果不好心法利器[134] | 算法工作6年经验分享:把活干得漂亮前几条做了一个问题

2025-06-15 21:01:18 713

转载 提问收集-0612

看看大家有什么问题有兴趣的,可以在评论区里提问,12日,就是今天,晚上我基本都会在线,在这个评论区里提问互动,部分比较大的问题我会在后面的文章里进行总结回复。我可以给一些思路,对最近的学习、工作、技术、生活、职场有什么想法,心态是什么样的之类的,包括最近的一些技术迭代变化,另外这个时间点挺多话题的,高考、毕业季、校招等,都可以聊聊。好久没做答读者问的环节了,本来计划是在每年的工作感想里怎么加这个环节,结果没收集问题,这次补一波,和大家展开来聊聊。祝大家学习工作顺利!

2025-06-12 20:58:36 49

原创 前沿重器[66] | 美团搜索广告召回迭代实践启示

有个发现,此处语义向量召回似乎一直没有作为很核心的主流,更多是考虑生成式了,超短句的语义向量质量其实是一般的,作者更多的工作放在了个性化+语义合并,然后做推理(无论是生成式还是后续的DS,甚至前面的几万token预测),相当于语义在这里更像一个特征,而非直接的训练目标。今天给大家介绍的是美团的一篇讲搜索广告召回的迭代思路,这个召回的历史比较悠久,经历了多个版本的迭代,通过这篇文章的阅读能感受到各个版本技术的优劣势,也能感受到各种相关技术的变迁,还包含了大量比较深刻的业务理解,收获还挺大的。

2025-06-08 21:01:12 1136

原创 前沿重器[65] | 大模型评判能力综述

,反复强调很多次,很多的问题就暴露在bad case里面,上面有提到评价任务的标准需要反复探究,就来源于此,早期我们并不能很好地理解一些任务,例如“关键词抽取”之类的任务,关键词的概念很模糊,只有看的足够多,逐步明确边界,才能知道何为关键,再者,我们人类的理解要对齐,我们和大模型的理解,也需要达成一致。在论文中,有提到纵向的步骤拆分和横向的分维度拆分,是有必要的,实验表明,对一些比较客观的文本生成任务,分维度能让大模型的额评价更加客观完整,单一的评价任务可能会存在一些倾向性,拆分能约束模型思考。

2025-06-02 21:01:17 593

原创 心法利器[134] | 算法工作6年经验分享:把活干得漂亮

心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。2024年新的文章合集已经发布,获取方式看这里:再添近20万字-CS的陋室2024年文章合集更新,更有历史文章合集,欢迎下载。往期回顾心法利器[129] | deepseek-R1自测效果分析和选择建议心法利器[130] | RAG效果调优经验心法利器[131] | 盘点踩过大模型多轮对话的坑心法利器[132] | 大模型系统性能优化trick心法利器[133] | 为什么我的大模型效果不好转眼又到

2025-05-25 21:00:48 802

原创 前沿重器[64] | 阿里妈妈URM大模型:基于LLM的通用推荐新方案

在文本生成的过程,一般的自回归模式很容易产生物料库内没有的内容,而且自回归的推理成本和时间也比较高,因此文中直接生成目标文本和目标物料两者,而且考虑到文本和物料两者的空间存在冲突,所以此处采用特殊的标签"[UM]"和"[LM]"来区分,有两个关键的输出头,一个是用户建模的输出头,将最终结果转为用户的嵌入,一个是语言头,允许模型进行文本生成的训练。这里特别提出一个有意思的问题,就是搜索和推荐的差异,搜索是有明确的查询需求的,但是推荐没有,这两个任务之间的差异很明显,本就难以兼容。

2025-05-18 21:00:55 760

原创 前沿重器[63] | SIGIR25-个性化实时检索增强机器人主动对话能力

论文内没有什么公式,更多是思路的介绍和应用思路,初看可能会觉得论文的内容比较随意,但这些思路我自己的感觉还是挺有启发的,另外有一些方案细节,按照作者的意思基本是参考了一些论文的实践建议,给了不少参考文献,下文的关键部分,我也会列举一部分,有兴趣的读者也可以按需阅读。这个意图体系,显然和常见的不同,这里分的是3个,自然过渡、显式检索、隐式检索,是个根据下游的策略区别来区分的,而这个下游的区分,是结合实际业务需求的差异来分析得到的,这块的设计应该是有很多业务上的数据分析积累得到的。

2025-05-11 21:00:34 1271

原创 心法利器[133] | 为什么我的大模型效果不好

,效果提升的两个核心原因,新的有效信息和更好的信息处理模式,和上述的现象也是非常匹配的。随着业务迭代、信息更新,大模型肯定是需要更新的,对大功能、新功能级别的大更新,我们可以通过微调、调整prompt之类的模式来更新,但是如果是一两条说法,一两个bad case,次数比较频繁,显然微调模型的性价比低,敏捷度也不足,prompt也无法做很细节的雕刻,但是这类似的问题是数据库的优势,通过类似RAG之类的方式能快速解决这个问题,只要这个问题不解决,RAG类似的技术应该都不至于被淘汰。业务问题的边界界定。

2025-05-05 21:01:06 880

原创 前沿重器[62] | 综述解读:大模型在搜索推荐中的应用

搜索和推荐是长期备受关注的焦点领域,在大模型出来后,自然也开始了大量的尝试,而且大模型的尝试也开始突破原有的一些应用范式,原有常见的一些技术架构和思路也在被撼动,最近看到一篇相关的综述论文,重点讲解了最近大模型所催生出的“生成式”范式在推荐和搜索中的应用。有关文档和物料的更新。在进行训练后,给定输入模型总能输出一些文档或者物料的id,然而在实际应用中,文档和物料的更新是极为快速的,未遇到的、新的内容,总很难很快更新到模型里,当然,这也是目前各种以深度学习为基础的模型所有的毛病。对大模型的输入长度。

2025-04-20 21:03:35 927

原创 前沿重器[61] | Agentic RAG综述解读

进一步,有一种神奇的体验,因为阅历和经历的积累,其实已经积累了不少技术,而在后续看到很多新的东西后,发现里面有挺多内容都是之前已经玩过的,而经过新的包装和组合,能够达到更加优秀的结果,尤其是思想上的,例如同样是意图识别,现在仍旧是有必要使用的,思想层面可以理解为“拆分”的分治思想,将场景细分后专门处理,能有效提升各自的效果,这种模式逐步做好能提升整个系统最终的效果。具备任务或角色定义的大模型。翻译:https://zhuanlan.zhihu.com/p/1893616563510288868。

2025-04-13 21:02:14 701

转载 再添近20万字-CS的陋室2024年文章合集更新

叉烧,CS的陋室博主,资深算法工程师,主攻搜索、对话、NLP方向。文章合集2023以来的文章,时间覆盖23年10月至25年1月的文章,因为25年1月的文章是对24年的总结,因此也被收录,包括“前沿重器”和“心法利器”。心法利器系列专注于技术和个人思考,讲的东西属于自己探究型,分享自己的经验。”,可以获得所有文章合集的链接。”,可以获得22年的文章合集。”,可以获得23年的文章合集。”,可以获得24年的文章合集。

2025-04-06 21:00:33 87

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除