自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Kaiyuan_sjtu的博客

kaiyuan

转载大模型面经-淘天

三面应该是加面的大老板面，从交流可以看出来对整个大模型这块的理解还是很深刻的，收获不小。了解哪些大模型和多模态大模型，然后就聊了大模型这一路是怎么发展过来的，Transformer、BERT、GPT、LLaMA、Qwen 这些，以及当时的 o1 推理模型。一面比较常规，几乎都是八股问题，我觉得只要了解常见的多模态大模型都问题不大，主要还是要理解各个模型设计的动机是什么，这也是面试最喜欢考察的。二面其实也偏常规，几乎也都是八股问题，但是也考察了一些对模型的理解以及知识面的广度，整体来说比一面的难度大一些。

2025-03-18 11:05:15 90

转载 20万美元商业级视频生成大模型Open-Sora 2.0来了，权重、推理代码及训练流程全开源！

据第三方技术平台统计，Open-Sora 的学术论文引用量半年内获得近百引用，在全球开源影响力排名中稳居首位，领先所有开源的 I2V/T2V 视频生成项目，成为全球影响力最大的开源视频生成项目之一。从 Open-Sora 1.2 升级到 2.0 版本后，与行业领先的 OpenAI Sora 闭源模型之间的性能差距大幅缩小，从之前的。此外，Open-Sora 2.0 在 VBench 评测中取得的分数已超过腾讯的 HunyuanVideo，以更低的成本实现了更高的性能，为开源视频生成技术树立了全新标杆！

2025-03-14 11:05:57 147

转载 DeepSeek大模型原创核心技术解读

原文：https://zhuanlan.zhihu.com/p/20751924531一、DeepSeek[1]核心理论创新1.MLA[2]大模型架构创新自GPT采用Transformer架构取得成功以来，经典Transformer架构一直是很多大模型的标配。但这不意味着Transformer是完美无缺的。DeepSeek在Transformer架构的基础上也做了很多创新，主要为：多头潜在注意力即...

2025-03-11 11:05:52 130

转载 DeepSeek开源盛宴：总结和感悟【更新至第三天】

作者 | 平凡整理 | NewBeeNLPhttps://zhuanlan.zhihu.com/p/26608701724最近一直关注着 DeepSeek开源盛宴，刷知乎发现一位答主@平凡观点很有意思，分享给大家~ 以下是原文开源到了第三天，有两个感觉。第一个感觉：这些工作几乎不可能在国外的AI公司里面完成。从第一天的FlashMLA，到第二天的DeepEP到今天的DeepGEMM，这些工作都是...

2025-02-27 11:06:04 130

转载从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

选自Deep (Learning) Focus作者：Cameron R. Wolfe编译：Panda自 OpenAI 发布 o1-mini 模型以来，推理模型就一直是 AI 社区的热门话题，而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。近日，Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「揭秘推理模型」的深度长文，...

2025-02-25 11:06:09 115

转载 DeepSeek R1 最新全面综述，近两个月的深度思考！

作者：长琴，Datawhale成员[公众号]‍本文是《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版。由于时间关系，实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考，中途接到分享邀请（还好有点积累，不然怕是难顶doge），成稿于分享后。分享PPT：https://github.com/datawhalechina/huggin...

2025-02-24 11:05:32 385

转载 2024年总结：放弃百万美金年薪去做大模型研发，我后悔了吗

作者 | Rand Xie 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/15262363521后悔了，全文终。(Just Kidding)首先, 感谢前司的努力, 让股价回到了发行价, 使得我可以用这个略微浮夸的标题写这篇文章. 在社交媒体上想让大家看见, 有时候是需要点浮夸的标题, 但我保证文章的信息是有价值的. 我来到现在的创业公司也一年多了, 在这...

2025-02-23 11:06:03 37

转载张俊林：从Grok 3看Scaling Law已死？

媒体风向变化太快，让人目不暇接。早上还在夸Deepseek成本低，性价比高，预训练Scaling Law死了，不需要太多机器和GPU卡，性价比优先，英伟达休矣；中午Grok 3一出来，说是用了10万张英伟达H100卡，效果力压OpenAI o3 mini和Deepseek R1，就转向说Scaling law还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹……这两个观点明显对立，有一真必...

2025-02-21 11:05:51 50

转载复现DeepSeek Zero的RL调参经验

作者：haotian，清华大学信息与通信工程硕士编辑：青稞AIhttps://zhuanlan.zhihu.com/p/22288441283相比cold-start-sft-->rl的传统流程，笔者更偏爱base上的rl。base上的rl在理论和实践层面都对未来模型的优化方向有重要的指导意义。理论层面policy-gradient+kl-constraint可以推导出residual-...

2025-02-18 11:05:25 55

转载百度修正决策，李彦宏重新拥抱开源

继决定免费之后，百度刚刚又发布一则重磅消息——下一代文心模型，决定开源！而且官宣内容只有一句话（字少事大的感觉）：我们将在未来几个月中陆续推出文心大模型4.5系列，并于6月30日起正式开源。从收费到免费，从闭源到开源……嗯，DeepSeek带来的冲击着实是有亿点点大。从闭源到开源的文心一言回顾文心一言的发展历程，2023年3月16日，是一个重要的时间节点。在这一天，百度的文心一言正式启动邀测。而这...

2025-02-16 10:06:54 463

转载聊一聊Reasoning Model的精巧实现：ReFT, Kimi K1.5和DeepSeek R1

知乎：姜富春（已授权）链接：https://zhuanlan.zhihu.com/p/20356958978编辑：「深度学习自然语言处理」公众号引言最近Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品K1.5和R1，效果追评甚至超过o1，也引起了大家的关注，甚至OpenAI也慌了。我也第一时间体验了下产品的效果，推理能力确实惊艳。也非常好奇到底...

2025-02-14 11:05:49 53

转载清华刘知远教授：大模型技术发展研判

来源| OpenBMB开源社区作者 | 刘知远2月2日晚，CCF-Talk 举办了主题为“夜话DeepSeek：技术原理与未来方向“的线上研讨会。清华大学长聘副教授、面壁智能首席科学家刘知远老师作为主讲嘉宾之一，为大家带来了关于“大模型强化学习技术原理与大模型技术发展研判”的精彩演讲。在圆桌环节，还围绕业界热点话题做了探讨：如何复现o1大推理模型？DeepSeek R1技术路线和训练流程有哪些亮...

2025-02-12 11:05:22 61

转载大模型择业思考：deepseek、字节与华为天才少年

作者：郑思泽链接：https://zhuanlan.zhihu.com/p/20604468985如涉及侵权，请联系删除转眼距离博士毕业已经六个月了，过去的一年时光可谓心路坎坷，时常陷于纠结犹豫之中，前一阵还收到邀请分享就业心得。因为行程安排没有能参加，趁着今天放假，就直接记录一段这段时间的心情和事情，记录的内容里，我的选择有对有错，以后或许翻出来看看会有益处。我是2024年7月毕业的博士，找...

2025-02-10 11:06:08 90

转载 2025年Next Token Prediction范式会统一多模态吗？

介绍一下最近和来自北大，北航，港大，国科大等学校的同学以及阿里, Microsoft, Humanify等研究机构呕心沥血的综述工作《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》作者: MMNTP Team编辑:「深度学习自然语言处理」公众号论文: https://arxiv.org/...

2025-01-17 11:05:45 50

转载 2024 年度总结 LLM System Research：过去半年的科研心路历程

飞往SFO的沿途风景，Shot on IPhone恰逢年末年度总结盛行，回国无心科研，我便强迫自己分享一下自己的过去半年的科研心路历程。目的有二：1. 继往开来，学有所思。2.受东川路第一伊蕾娜：年度总结 --2024年满血版(https://zhuanlan.zhihu.com/p/14918304358)影响，尝试记录并分享，同知乎小伙伴们交流。知乎：Vincent地址：https://zhu...

2025-01-14 11:06:07 85

转载大模型Infra王朝2024

知乎：手抓饼熊链接：https://zhuanlan.zhihu.com/p/12663989502记录一下2024做大模型Infra的一些破防瞬间。大厂All in大模型的历史背景不上称四两重日常GPU余额当卡被其他人用了平时的心里状态接到任务时的心里状态辛苦优化的功能算法不肯上线模型训崩了遇到友商打价格战与开源方案对比性能前与开源方案对比性能后竞品发布指标第一后最后截取部分评论，哈哈乐呵一下，...

2025-01-10 11:05:34 64

转载工业界主流大语言模型后训练(Post-Training)技术总结

作者丨唯亚@知乎来源丨https://zhuanlan.zhihu.com/p/987052830编辑丨极市平台导读本文整理工业界主流开源LLM的后训练方案，着重介绍训练算法和数据处理部分前言今年工业界陆续开源了多款优秀的大语言模型，并放出了技术报告，本文整理工业界主流开源LLM的后训练方案，着重介绍训练算法和数据处理部分。以下是模型列表：Llama3（Meta）Qwen2（阿里云）Nem...

2025-01-08 11:05:29 121

转载多模态RAG技术：从语义抽取到VLM

导读本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面：1.基于语义抽取的多模态 RAG2.基于 VLM 的多模态 RAG3.如何 Scale 基于 VLM 的多模态 RAG4.技术路线的选择5.问答环节分享嘉宾｜金海 Infiniflow 联合创始人出品社区｜DataFun01基于语义抽取的多模态 RAG多模态 RAG 的发展方向旨在构建一个高度集成的系统，能够无...

2025-01-02 11:05:20 104

转载 Qwen2.5技术报告解读

来源：包包算法笔记这两天Qwen团队发布"Qwen2.5 Technical Report" 的技术报告，下面对该报告做了简单的概括，希望让大家有个快速了解。链接：https://arxiv.org/pdf/2412.15115摘要Qwen2.5 是一系列大型语言模型（LLMs），旨在满足多样化的需求。与之前的版本相比，Qwen 2.5 在预训练和后训练阶段都得到了显著改进。预训练数据集从之前的7...

2024-12-23 11:05:36 123

转载腾讯 | 混元大模型业务落地实践

在本篇文章中，我们将深入探讨腾讯大语言模型在多个业务场景中的应用，特别是如何通过前沿技术提升模型的智能化与用户体验。首先介绍腾讯大模型的广泛应用场景，如内容生成、智能客服和角色扮演等，并详细解析 RAG（Retrieval-Augmented Generation）技术及其在实际业务中的创新应用，特别是在文档生成和问答系统中的优势。此外，文章还将探讨 GraphRAG 在角色扮演场景中的应用，如何...

2024-12-16 11:05:18 110

转载抖音/阿里/美团/微信/快手长序列兴趣建模经典方案探索

作者|九河之间整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/4544607237业界的超长序列建模方式，大都围绕着两阶段GSU + ESU进行：要么设计一套高效的GSU检索，要么围绕着GSU/ESU两阶段的目标一致性。序列长度也从起初的千级别发展到万级别，甚至十万级别( 动辄就是LifeLong )。试问长序列建模的下一步，往哪里走？随...

2024-12-09 11:05:39 646

转载 RAG还是微调，怎么选【赠书

要想提高大模型在特定行业与场景中输出的适应性与准确性，除了使用RAG，还可以使用自己的数据对大模型进行微调。那么这两种方案的区别及选择的标准是什么呢？我们首先简单了解一下大模型微调。以OpenAI公司的GPT大模型为例，一个GPT架构的大模型的训练通常需要经过以下几个阶段。1．预训练阶段这是整个过程中最复杂的阶段，像GPT-4这样的模型在预训练阶段通常需要成千上万个GPU，在海量的无标记的数据上训...

2024-12-08 11:05:27 123

转载一位阿里P9的年薪和家庭资产

来源：公子龙过去的二十年中，我们似乎总能够听到层出不穷的致富故事，但近些年来，这样的事情似乎越来越少，不常听说了，好像互联网的小富挺多，但波澜起伏的大富，正在慢慢远离我们。来看一段文字，是一位刚刚失业的四十岁高级码农，在近二十年的岁月中，努力积攒下巨额财富的经历：这是知乎问题「40岁因为财务自由决定不上班的人，个人资产总和到底有多少」下的匿名回答。这位答主的运气很好，互联网、房地产、股票，一件不落...

2024-12-08 11:05:27 84

转载生成+理解一体多模态大模型的思考

作者：王啸峰原文：https://zhuanlan.zhihu.com/p/8196185285现在的（支持生成+理解一体）多模态大模型，主要分成那些方案？以语言模型为核心• Emu3（支持video、img、text任务，纯自回归（AR）损失）• Chameleon（img、text任务，纯AR loss）• Show-o（图像部分双向attention，类似于MaskGit，文字部分AR lo...

2024-12-02 11:05:47 57

转载语言模型窗口外推技术综述

导读本次分享的题目为“大语言模型窗口外推技术进展”。主要内容包括以下几个部分：1.摘要2.绝对位置编码3.相对位置编码4.外推能力5.问答环节分享嘉宾｜姜鑫北京智源人工智能研究院研究员文章作者｜周家纬上海交通大学硕士出品社区｜DataFun01摘要主要内容概述：绝对位置编码与相对位置编码：介绍了绝对位置编码和相对位置编码的基本原理，包括三角函数编码和旋转位置编码（RoPE）的运...

2024-11-27 11:05:28 102

转载 KDD 2024 | 快手生成式推荐

作者|方寸天地宽整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/717760596本文介绍我们团队在快手生成式推荐上的方案，应用到重排阶段，在多个场景推全，取得了比较显著的收益，文章已经录用到KDD 2024。Non-autoregressive Generative Models for RerankingRecommendationhttps://ar...

2024-11-25 11:06:01 145

转载 LLM性能优化中的一些概念扫盲

作者：tangwang 原文：https://zhuanlan.zhihu.com/p/4525257731整理：青稞 AI一、MHA结构优化（效果有损）KV Cache的大小取决于模型大小（dim和layers) 和序列长度。为了尽可能的支持更大的模型、或者更长的序列，就需要对kv 进行压缩，下面列举一些方法对MHA的参数量进行压缩，从而对kv Cache进行压缩。MQA（Multi-Quer...

2024-11-18 11:05:12 60

转载 KDD2024推荐系统/计算广告/大模型论文整理(研究专题)

第30届SIGKDD会议已于2024年8月25日至29日在西班牙巴塞罗纳举行。据统计，今年Research Track共有2046篇有效投稿，接收率为20%，相比KDD2024的接收率22.10%有所下降。其中，涉及到的推荐系统相关的论文共59篇（本文只整理了Research Track相关论文，应用专题在次条中进行总结）。整理不易，欢迎小手点个在看/分享。本文收集与整理了发表在该会议上的推荐系统...

2024-11-14 11:06:04 1223

转载开放注册｜中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会（CIPS-LMG2024）...

会议简介中国中文信息学会（CIPS）是中国中文信息处理及其相关领域的学术团体，大模型与生成专业委员会（LMG）是中国中文信息学会旗下的专业委员会，全国大模型智能生成大会（LMG）是该专委会的旗舰学术会议。LMG是国内外大模型技术精英最期待的年度盛会，是极具行业实践的专业大模型交流平台，共同推进大模型技术的前沿发展和应用，助力中国在全球大模型和生成式人工智能领域的领先地位，为国家技术创新、产业升级及...

2024-11-14 11:06:04 93

转载 ICLR 2025（投稿） | 多模态大语言模型相关论文整理

©作者｜刘子康‍‍‍‍‍‍‍‍机构｜中国人民大学研究方向｜多模态，自然语言处理引言随着大语言模型的迅速发展，如何将大语言模型应用在视觉领域也成为了一个热门研究方向。在本文中，我们从MLLM的训练，安全性分析，高效部署等方面，筛选并总结了十篇论文，展示了当下多模态大语言模型研究的具体内容。LAW OF VISION REPRESENTATION IN MLLMS本文主要研究了多模态大语言模型中模型...

2024-11-11 11:05:44 106

转载教授何恺明在MIT的第二门课——《深度生成模型》，讲座PPT陆续已出

又有机会跟着大神学习了！今年 2 月起，何恺明已经开始了自己在 MIT 的副教授职业生涯，并在 3 月 7 日走上讲台完成了「人生中教的第一堂课」。近日，我们发现了何恺明的第二门课程《深度生成模型》（6.S978: Deep Generative Models），已经于 9 月初开始了授课。在何恺明担任讲师之外，MIT CSAIL 计算设计与制造团队（Computational Design &a...

2024-11-11 11:05:44 83

转载聊一聊大模型幻觉问题及其解决方案

导读大模型幻觉问题在大模型应用过程中，非常阻碍实际业务落地。解决该问题是一项复杂的系统工程任务，需多角度综合探索。业界正通过持续的研究与实践，寻找更有效的检测与缓解策略，以提升大模型的可靠性、安全性与实用性。本文将从五个方面探讨大模型幻觉问题，具体探讨内容如下：1.什么是大模型幻觉问题2.360 可信大模型的幻觉解决方案3.360 可信大模型应用案例4.360 可信大模型的未来探索5....

2024-11-07 11:05:26 451

转载刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

刚刚，2024 阿里巴巴全球数学竞赛决赛结果正式公布！共有86名选手获奖，其中金奖5名，银奖10名，铜奖20名，优秀奖51名。与初赛不分方向不同，决赛设有代数与数论、几何与拓扑、分析与方程、组合与概率、计算与应用数学五个赛道，每个赛道评出金奖 1 名、银奖 2 名、铜奖 4 名以及优秀奖 10 名，先前备受关注的江苏17岁中专生姜萍无缘奖项。2024 阿里巴巴全球数学竞赛决赛完整的获奖名单5 位金...

2024-11-03 11:47:35 74

转载【文末赠书】终于！国内首本大模型推荐系统著作来啦~~

--文末赠书--文/刘强ChatGPT与大模型技术的影响已经渗透到各行各业，无论是谁，都无法忽视其带来的革命性变化。自2023年初以来，我一直密切关注大模型的进展，特别是在推荐系统中的应用。在这个每天都有新突破的时代，保持技术的领先至关重要。为此，我花费了近一年的时间，撰写了《大模型推荐系统：算法原理、代码实战与案例分析》一书。这是国内首本系统介绍大模型在推荐系统中应用的书籍，我希望这本书能够为国...

2024-11-03 11:47:35 106

转载 ChatGPT搜索终于来了！

‍ChatGPT搜索重磅登场！OpenAI官宣，ChatGPT从此正式变成AI搜索产品，要革了谷歌的命。而谷歌早在一分钟前，就官宣自家的AI搜索也来了。巨头开战，硝烟四起，搜索引擎果然被AI彻底改写。ChatGPT搜索终于来了！从今天起，它不再是一个聊天机器人，而是一个可以取代谷歌、Perplexity搜索的AI。只需点击对话框下方蓝色小地球，任何你想搜索的内容，得到的结果都将是实时的，并且还有参...

2024-11-02 11:05:12 134

转载 o1之下，技术何从

作者：ybq 知乎：https://zhuanlan.zhihu.com/p/3341034510这篇文章不聊 o1 的技术路线（目前也没人能精准讲出来，毕竟大家都是猜测），我聊一下 o1 带来和改变了什么。虽然之前立过 flag 说再也不写“感想文”了，但怪只能怪 o1 带给我的震撼还是太大了，实在忍不住想来谈谈这波新的技术范式。o1 带来了什么在模型效果上，o1 带来了令人瞠目结舌的理工科能...

2024-10-31 11:05:51 49

转载 LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

作者|zzp-seeker整理|PaperWeekly前几个月 Meta HSTU 点燃各大厂商对 LLM4Rec 的热情，一时间，探索推荐领域的 Scaling Law、实现推荐的 ChatGPT 时刻、取代传统推荐模型等一系列话题让人兴奋，然而理想有多丰满，现实就有多骨感，尚未有业界公开真正复刻 HSTU 的辉煌。这里面有很多原因，可能是有太多坑要踩，也有可能是 Meta HSTU ...

2024-10-29 11:05:55 246

转载小红书搜索：生成式检索的探索与实践

大家好，这里是 NewBeeNLP。今天分享主题为生成式检索的探索和实践，将介绍当前常见的检索范式，以及发表于 EACL 的关于生成式检索的一篇论文，重点剖析记忆机制相关问题。主要内容包括以下几大部分：1.研究团队2.检索范式3.GDR：记忆机制的双刃剑效应4.GDR：应用场景5.问答环节分享嘉宾｜冯少雄博士小红书算法工程师编辑整理｜蔡郁婕内容校对｜李瑶出品社区｜DataFun01研...

2024-10-24 11:05:31 147

转载快手HOME——PLE的进一步升级

作者|老杨可爱多（已授权）整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/916726549在工业界，广泛使用的多任务框架是专家混合（MoE）范式，它总是为每个任务引入一些共享的和特定的专家，然后使用门网络来衡量相关专家的贡献。MMOE/PLE中存在极化现象，指的是mmoe的gate中，各个专家的权重不平衡；具体来说，有以下3点：（1）专家崩溃（针对所有...

2024-10-21 11:06:00 198

原创周末吃个某节的瓜，官方实锤来了！

这几天宇宙厂的瓜都吃了吧，整个过程反转过多，存在各方声音，刚刚官方实锤，特来给大家把瓜的结局给补上。网传：据传事情起源 leader把调度给了 dit 生图团队，冷落了自回归团队。而从一份审查录音透露（录音链接：https://www.youtube.com/watch?v=nEYbYW--qN8），这大哥为此心生不满，在长达2个月的时间里对集群代码进行恶意攻击。一些具体攻击手段，仅供参考不许学习...

2024-10-19 16:30:20 371

ACL2020论文大全

ACL2020顶会论文打包下载，摘要必须大于50字，怎么还没到50字，我真的不知道说什么了，现在大概快到50字了吧，到了吗

2020-09-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄7年

博客专家认证

344
原创

1942
点赞

8503
收藏

3万+
粉丝

关注

私信

分类专栏

最新评论

LEARN: LLM在快手电商广告推荐场景的应用
kimyiyoo: 感谢分享！想请问为什么在线做u2i召回不实际？排序任务每天都有很多用户请求，排序时的item也都是不同的，这个量级也是相当大了呀
NoteLLM: 大语言模型在小红书推荐系统的落地应用
GREAKER: 感觉他的流程图不太容易看懂
非凸科技内推 | 算法工程师、量化研究员等，校招/社招
Eri?cccc: 请问下面试都问哪些呀
【记录贴】cs231n课程作业一遇到问题总结
XIAOMINLIWZF: 这个命令在哪儿里输入呀
BERT用的LayerNorm可能不是你认为的那个Layer Norm？
维昵娟: 对，我今天也被这个问题困惑到了，我现在的理解和你这篇文章完全一样，感觉Transformer中使用的LayerNorm就是InstanceNorm

提示

确定要删除当前文章？

取消删除