大模型日报 3月14日_devbench-CSDN博客

本文链接：https://blog.csdn.net/LLM_SPACE/article/details/136828943

资讯

研究

智能体的ChatGPT时刻！DeepMind通用AI向人类玩家进化，开始理解游戏

https://mp.weixin.qq.com/s/-GNZaY9vPQJCJUD7WGTjGA

视频游戏是 AI 系统的重要试验场。与现实世界一样，游戏也是丰富的学习环境，具有反应灵敏的实时设置和不断变化的目标。从早期与雅达利游戏的合作，到人类大师级水平的《星际争霸 II》系统 AlphaStar，谷歌 DeepMind 在人工智能和游戏领域陆续推出过不少影响力研究。刚刚，谷歌宣布了又一项里程碑式研究：SIMA（Scalable Instructable Multiworld Agent），一种适用于 3D 虚拟环境的通用 AI 智能体。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

https://mp.weixin.qq.com/s/AGyimoCL2MfaslJZcZflWQ

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的语言模型（LLaMA-2-7B）在数学问题解决方面已经展现出较强的潜力，并可使用基于合成数据的有监督微调方法促使模型愈发稳定地将数学能力激发出来。这项研究发布在 arXiv 上，题为《Common 7B Language Models Already Possess Strong Math Capabilities》。

AI4Science与LLM的碰撞：生物分子+文本的联合建模，人大高瓴、微软、华科、中科大团队最新综述

https://mp.weixin.qq.com/s/L5FdbcZj3HZYqFDPgxMjHQ

随着大模型和 AI4Science 的蓬勃发展，越来越多的工作开始关注生物分子（Biomolecule）与自然语言（Language）的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述，增强模型对其的理解，提高生物分子属性预测等下游任务的效果，为全面表示和分析生物分子开辟了新的途径。近日，人大高瓴联合微软、华科、中科大等机构发布了综述文章：《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》[1]。该综述从生物分子的表征方式、建模目标、表示学习、应用场景等方面出发，系统地总结了相关工作，以及可用的数据、代码、模型、benchmark。

产业

能说会看会行动，OpenAI机器人，一出手就是王炸

https://mp.weixin.qq.com/s/Ld0ZQdM6SFvte83BJ-EjlA

「借助 OpenAI 的能力，Figure 01 现在可以与人全面对话了！」本周三，半个硅谷都在投的明星机器人创业公司 Figure，发布了全新 OpenAI 大模型加持的机器人 demo。这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资，才十几天就直接用上了 OpenAI 的多模态大模型。

零一万物API正式上线：支持输入30万汉字，看不懂《百年孤独》的人有救了

https://mp.weixin.qq.com/s/qmjEe56WtQeUgV5iyTx4pg

2024 年，大模型领域的一个趋势越来越清晰：重视优化，面向应用。在去年的百模大战中，科技巨头、创业力量你追我赶，将大模型技术卷到了一个新的高度。有了强大的模型之后，更重要的是将这些能力输出到现实中的应用场景，提升用户体验、构建生态。正因此，大模型厂商们或是开源，或是推出模型 API，都是希望让成果为开发者所用，以此为基础设施构建起繁荣的大模型生态。国内的大模型独角兽公司零一万物，也在今天正式发布了 Yi 大模型 API 开放平台。

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

https://mp.weixin.qq.com/s/Z-nslIho7bL3o4W29rd9nw

刚刚，芯片创业公司 Cerebras 宣布了该公司历史上最重要的消息，「我们发布了世界上最快的芯片，该芯片拥有高达 4 万亿个晶体管。」一直以来，Cerebras 一直在往「大」的芯片方面发展，此前他们发布的晶圆级引擎（Wafer Scale Engine，WSE-1）面积比 iPad 还大。第二代 WSE-2 虽然在面积上没有变化，但却拥有惊人的 2.6 万亿个晶体管以及 85 万个 AI 优化的内核。而现在推出的 WSE-3 包含 4 万亿个晶体管，在相同的功耗和价格下，WSE-3 的性能是之前记录保持者 WSE-2 的两倍。此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的，基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力，通过 90 万个人工智能优化的计算核心，提供每秒 125 petaflops 峰值 AI 性能（1 petaflops 是指每秒 1,000,000,000,000,000（1 万亿）次浮点运算）。

Claude 3 暴打 GPT4 时，亚马逊云科技露出了「神秘微笑」

https://mp.weixin.qq.com/s/_Yx4I8eHQVJYvcyL2K2Eow

在 OpenAI 正在热火朝天地跟 Musk「扯皮」，Gemini 因为在图像中加入过量「多元化」导致政治过于正确而深陷泥潭之时，Anthropic 带着 Claude 3 模型家族仿佛横空出世般，杀了个措手不及。这次「新王登基」究竟筹划了多久？Anthropic 是 Amodei 兄妹在 2021 年创建的独角兽公司——一家崇尚安全和以人类为中心价值观的 AI 公司（这在价值观方面与 OpenAI 有着不一样的愿景），核心创始团队均来自 OpenAI 并参与了 GPT-3 产品的早期开发。

软银据悉探索投资法国人工智能初创公司Mistral

https://www.tmtpost.com/nictation/6985586.html

知情人士称，软银集团正在探索对Mistral AI公司的潜在投资。软银已表示有兴趣在Mistral下一次融资时为其提供支持。知情人士称，任何交易都有可能使Mistral的估值超过20亿美元，不过双方还没有讨论过确切的条款。知情人士表示，双方的商议仍在进行中，目前还不能确定是否会达成协议。

推特

离取代人类还有多远? 继Devin后出现Babel Agent：工作3小时后构建复杂软件

https://medium.com/@connect_33559/how-far-from-replacing-humans-ai-programmer-build-complex-software-after-3-hours-of-working-1b61b18a0c0b

Devin在开发代理方面掀起了一股热潮,但许多人仍然质疑,"视频中的聊天过程中仍有大量的人工干预"以及 "制作的东西太简单"。他们认为离真正取代程序员还很遥远,仍处于实验阶段,不适用于真正的工业生产。

如果你怀有这样的疑虑,我很高兴向你介绍Babel——一家专门培养软件开发代理团队的公司。Babel已经在使用Babel Agent进行工程软件开发,如测试Claude 3的可用性、编写后台管理系统、集成Stripe支付系统等。

目前处于测试阶段的Babel Agent已经展示了代理在软件生产中真正取代人类的巨大潜力。

Babel的CEO张海龙凌晨5点起床出差,将任务描述交给Babel Agent。等他的飞机落地时,在没有他任何干预的情况下,任务已经完成。你可以安心睡觉,下飞机时就能收到一个已经运行的成品。

通过OpenAI,Figure 01现在可以与人进行完整的对话

https://x.com/Figure_robot/status/1767913661253984474?s=20

通过OpenAI,Figure 01现在可以与人进行完整的对话

-OpenAI模型提供高级视觉和语言智能

-Figure神经网络提供快速、低级、灵巧的机器人动作

视频中的一切都是神经网络:

暂时无法在飞书文档外展示此内容

Jim Fan评价DeepMind SIMA：这是OpenAI Universe在2016年的最初承诺,远远超前于时代

https://x.com/DrJimFan/status/1767938124905406567?s=20

DeepMind SIMA:一个通过读取像素和生成键盘/鼠标控制来玩7个游戏和4个3D模拟的代理。这是OpenAI Universe在2016年的最初承诺,远远超前于时代。8年后,它用现代人工智能技术得到了正确的实现。

我喜欢的地方:

语言作为一等公民。OpenAI VPT(2022)是第一个通过键盘/鼠标玩《我的世界》的代理。不知何故,它在OpenAI没有以语言为条件!
多环境迁移:游戏和3D模拟器如ProcThor。
一个强大的数据管道,招募人类玩家记录动作并用语言注释。

局限性:

环境数量有限。
行动视野非常短:只有约10秒。还没有达到连续玩《无人深空》几个小时的水平。
数据管道的可扩展性不高。我们需要让代理自主探索并寻找新活动的方法。

但这是一个好的开始!祝贺DeepMind团队!

暂时无法在飞书文档外展示此内容

OpenAI：助手API现已支持流式传输，可以使用代码解释器、检索和函数调用等工具构建实时体验

https://x.com/OpenAIDevs/status/1768018196651802850?s=20

助手API现已支持流式传输!您可以使用代码解释器、检索和函数调用等工具构建实时体验。

https://platform.openai.com/docs/assistants/overview/step-4-create-a-run?context=with-streaming

暂时无法在飞书文档外展示此内容

Hermes 2 Pro 7B：使用更新和清理后的Hermes 2数据集,提高了几个功能,在丰富函数调用和JSON模式样本上进行训练

https://x.com/NousResearch/status/1768019773848518805?s=20

介绍我们Hermes系列模型的最新版本:Hermes 2 Pro 7B。这个最新版本使用了更新和清理后的Hermes 2数据集,提高了几个功能,现在在各种丰富的函数调用和JSON模式样本上进行了训练,从而为更可靠和健壮的代理打开了大门。在此下载模型:https://huggingface.co/NousResearch/Hermes-2-Pro-Mistral-7B。GGUF版本可在此处获得:https://huggingface.co/NousResearch/Hermes-2-Pro-Mistral-7B-GGUF。这项工作历时数月,由@teknium1, @intrstllrninja, @theemozilla, @karan4d, @huemin_art 和 @FireworksAI_HQ的努力和协作完成;同时感谢 @ByteNano 和 @winglian 对axolotl进行定制,以支持我们独特的提示格式。特别感谢 @Latitudesh 赞助计算资源以制作这个模型。

Transformers.js现在可以利用MODNet实现实时背景移除

https://x.com/xenovacom/status/1768034516134760831?s=20

WebGPU是未来! 😍🔥 Transformers.js现在可以利用MODNet实现实时背景移除! ⚡️

Transformers.js v3(增加了完整的WebGPU支持)的开发正在顺利进行,我们很高兴能继续分享更新和演示!

自己试试看! 👇

暂时无法在飞书文档外展示此内容

DeepLearning AI新课程“RAG的知识图谱”：一种数据结构,非常擅长捕捉多种类型数据之间的复杂关系

https://x.com/AndrewYNg/status/1767941813820862655?s=20

我们的新短课程"RAG的知识图谱"现已推出!知识图谱是一种数据结构,非常擅长捕捉多种类型数据之间的复杂关系。通过比单纯的相似性搜索更复杂的文本检索,知识图谱可以改善您传递给LLM的上下文和RAG应用程序的性能。

在本课程中,由@neo4j的@akollegger讲授,您将

通过从头构建公共财务文档的图谱来探索知识图谱的工作原理
学习编写查询从图中检索文本和数据,并使用它来增强您传递给LLM聊天机器人的上下文
将知识图谱与问答链相结合,构建更好的RAG驱动的聊天系统

在此注册!https://deeplearning.ai/short-courses/knowledge-graphs-rag/

暂时无法在飞书文档外展示此内容

论文

语言模型随着过度训练能够在下游任务上可靠扩展

链接：http://arxiv.org/abs/2403.08540v1

通过研究语言模型在不同数据分布下104个模型的实验，本文克服了当前规模研究中的一些缺点，着重于超训练领域的扩展。我们发现，通过模型参数数量和训练token与参数比例的扩展，可以准确预测验证损失。此外，我们还通过幂律关系语言模型的困惑度与下游任务表现，用更少的计算资源预测模型在下游任务中的错误率。详细实验可在https://github.com/mlfoundations/scaling找到。

基于 Gemini 技术的 Gemma 开放模型

链接：http://arxiv.org/abs/2403.08295v1

这项工作介绍了Gemma，这是一组轻量级、最先进的开源模型，建立在用于创建Gemini模型的研究和技术基础之上。 Gemma模型在语言理解、推理和安全性等学术基准上表现出色。我们发布了两种规模的模型（20亿和70亿参数），提供了预训练和微调检查点。 Gemma在18个基于文本的任务中，胜过了相似规模的开源模型的11个任务，并就模型的安全和责任方面进行了全面评估，同时详细描述了模型的开发过程。我们认为，负责任地发布LLMs对于提高前沿模型的安全性，推动下一波LLM创新至关重要。

持续预训练大语言模型的简单且可扩展的策略

链接：http://arxiv.org/abs/2403.08763v1

大语言模型（LLMs）通常在数十亿个标记上进行预训练，一旦有新数据可用，就会重新开始这个过程。一个更有效的解决方案是持续地对这些模型进行预训练，节省可观的计算资源，而不是重新训练。然而，由新数据引起的分布变化通常会导致在以前的数据上性能下降，或者对新数据的适应性不佳。在这项工作中，我们展示了学习率（LR）重新升温、LR重新衰减和重播以匹配从头开始根据最终损失和语言模型（LM）评估基准的性能，对于两个常用LLM预训练数据集（英语→英语）之间的弱但现实的分布变化，以及更强的分布变化（英语→德语）在405M参数模型规模，大数据集大小（数千亿个标记）。选取更大规模实验的弱但现实的转变，我们还发现我们的持续学习策略匹配了10B参数LLM的重新训练基线。我们的结果表明LLMs可以通过简单且可扩展的持续学习策略成功更新，仅使用计算资源的一小部分即可匹配重新训练基线。最后，受先前的工作启发，我们提出了替代余弦学习率调度的方法，有助于避免LR重新升温导致的遗忘，并且不受固定标记预算的约束。

CHAI: 集群头部注意力用于高效 LLM 推断

链接：http://arxiv.org/abs/2403.08058v1

大语言模型（LLMs）具有数百亿参数已经改变了机器学习领域。然而，在推断时间提供这些模型既需要大量计算又需要大量内存，一个请求可能需要多个GPU和数十GB的内存。多头注意力是LLMs的关键组件之一，可能占据LLMs内存和计算需求的50%以上。我们观察到在注意力分配到哪些token上，各头之间存在高度冗余。基于这一观察，我们提出了聚类头注意力（CHAI）。CHAI在运行时结合了具有高度相关性的头部进行自注意力，从而减少内存和计算。在我们的实验中，我们展示了CHAI能够减少存储K、V缓存的内存需求高达21.4%，推断时间延迟高达1.73倍，而无需任何微调。CHAI在3种不同模型（OPT-66B、LLAMA-7B、LLAMA-33B）和5种不同评估数据集中的准确率最多只有3.2%的偏差。

通过同时融合高度专门化的语言模型掌握文本、代码和数学

链接：http://arxiv.org/abs/2403.08281v1

摘要：自然语言、编程代码和数学符号的基础数据分布差异巨大，对于旨在在三个领域同时取得高性能的大语言模型(LLMs)来说，这构成了一项复杂的挑战。在特定领域内实现LLM的非常高水平熟练通常需要对相关语料库进行广泛训练，这通常会伴随着在其他领域性能的牺牲。本文提出将已经高度专门化的模型直接融合。提出的融合框架UltraFuser 包含三个已经充分训练的专业指向在语言、编码和数学上。引入了一个基于token级的门控机制来融合专家的输出。设计了一个伴随着平衡抽样的两阶段训练策略以确保稳定性。为了有效训练融合模型，我们进一步构建了一个高质量的监督指导调优数据集，UltraChat 2，其中包括文本、代码和数学内容。这个数据集包括大约30万条指令，涵盖每个领域的各种主题。实验表明，我们的模型能够同时掌握这三个关键领域。

LiveCodeBench：全面无污染评估大型语言模型的代码能力

链接：http://arxiv.org/abs/2403.07974v1

大语言模型（LLMs）应用在与代码相关的应用上已经成为一个突出的领域，吸引了学术界和工业界的极大兴趣。然而，随着新的和改进的LLMs的开发，现有的评估基准（如HumanEval、MBPP）已不再足以评估它们的能力。在这项工作中，我们提出了LiveCodeBench，一个对代码语言模型进行全面和无污染的评估，它持续从三个竞赛平台（LeetCode、AtCoder和CodeForces）中收集新问题。值得注意的是，我们的基准还关注更广泛范围的代码相关能力，如自我修复、代码执行和测试输出预测，而不仅仅是代码生成。目前，LiveCodeBench收录了2023年5月至2024年2月间发布的四百个高质量编程问题。我们在LiveCodeBench上评估了9个基础LLMs和20个指令调整的LLMs。我们提供了关于污染、整体性能比较、现有基准中可能存在的过拟合以及单个模型比较的经验性发现。我们将发布所有提示和模型完成结果，供社区进一步分析，同时还提供一个通用工具包，用于添加新场景和模型。

十年间数据集偏见之战：我们到达目标了吗？

链接：http://arxiv.org/abs/2403.08632v1

我们重新审视了Torralba和Efros在十年前提出的“数据集分类”实验，在新时代中，具有大规模、多样化，以及希望更少偏见的数据集，还有更具能力的神经网络架构。令人惊讶的是，我们发现现代神经网络能够在分类图像所属数据集方面取得出色的准确性：例如，我们报告三路分类问题中YFCC、CC和DataComp数据集的验证数据上达到84.7%的准确性。我们的进一步实验表明，这样的数据集分类器可以学习可泛化和可转移的语义特征，这不能简单地通过记忆来解释。我们希望我们的发现能激发社区重新思考涉及数据集偏见和模型能力的问题。

DevBench：一个全面的软件开发基准测试

链接：http://arxiv.org/abs/2403.08604v1

最近大语言模型(LLMs)的突破显著增强了它们的编码能力。然而，现有的基准主要集中在编程的简化或孤立方面，如单文件代码生成或库问题调试，未能完全衡量真实世界编程活动所带来的各种挑战。为此，我们提出了DevBench，这是一个全面评估LLMs在软件开发生命周期的各个阶段的基准，包括软件设计、环境设置、实现、验收测试和单元测试。DevBench拥有各种编程语言和领域，高质量的数据收集以及针对每项任务精心设计和验证的度量标准。实证研究显示，包括GPT-4-Turbo在内的当前LLMs未能解决在DevBench中出现的挑战。分析显示，模型难以理解库中的复杂结构，管理编译过程和掌握高级编程概念。我们的研究结果为LLMs未来向真实世界编程应用的发展提供了可行见解。我们的基准可在https://github.com/open-compass/DevBench上找到。

产品

BabelCloud

https://babel.cloud/

Babel 是一家专注于研发软件开发 AI Agent 的公司。Babel 已经使用 Babel Agent 进行工程软件开发，例如测试 Claude 3 的可用性、编写后端管理系统以及与 Stripe 支付系统集成等。公司的 CEO 张海龙尝试在出差开始前将任务描述交给 Babel Agent，而当飞机降落时，任务已经完成，没有任何人为干预。Babel Agent 可以自主完成任务分解；自主编码、编译和调试；自主研究独立问题等，当遇到不明确的要求或没有提供必要的信息时，Babel Agent 也会寻求人工帮助。这是产品的 Demo 视频链接：https://twitter.com/babelcloudai/status/1768108122097570014?s=46&t=rQA7R1U94NJs4VJ3lPVcmQ

Hotshot ACT1

https://hotshot.co/act-one

ACT 1（Advanced Cinematic Transformer）是一个由Hotshot Research开发的文生视频产品，它能够生成高清晰度的视频，可以适配不同类型的屏幕且无水印。该产品通过使用大规模高分辨率文本视频语料库进行训练，以实现高保真度的空间对齐、时间对齐和审美质量。

HuggingFace&Github

ELLA

https://github.com/ELLA-Diffusion/ELLA?tab=readme-ov-file

在文本到图像生成领域中，扩散模型在处理密集提示方面的性能优势。传统模型通常使用 CLIP作为文本编码器，但其限制了对密集提示的理解能力，如多个对象、详细属性、复杂关系和长文本对齐等。团队开发了一种名为 ELLA 的高效大型语言模型适配器，它为文本到图像的扩散模型提供了强大的大型语言模型支持，从而增强文本对齐能力，无需训练 U-Net 或 LLM。通过时间步长感知语义连接器（TSC）等创新模块，作者调整语义特征，帮助扩散模型更好地解释冗长复杂的提示。

AMchat—高等数学大模型

https://github.com/AXYZdong/AMchat

AM (Advanced Mathematics) chat 是一个集成了数学知识和高等数学习题及其解答的大语言模型。该模型使用 Math 和高等数学习题及其解析融合的数据集，基于 InternLM2-Math-7B 模型，通过 xtuner 微调，专门设计用于解答高等数学问题。

投融资

Physical Intelligence筹集7000万美元建造适用于任何应用的AI驱动机器人

https://www.maginative.com/article/physical-intelligence-raises-70m-to-build-ai-powered-robots-for-any-application/

Physical Intelligence是一家由著名的机器人和AI专家团队创立的公司，近期以7000万美元的种子轮资金从隐秘状态中浮出水面。该公司旨在开发基础模型和学习算法，为各种机器人和物理执行设备提供动力。这轮资金由Thrive Capital领投，Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital参投，体现了Pi创造一个能将AI带入物理世界的通用模型的巨大潜力。Pi通过融合构建语言模型的技术和自身的机器控制及指令方法，面向广泛的机器人硬件创建软件，旨在使机器人能够在各种应用中执行任务。

Nanonets获得Accel支持，提升基于AI的工作流自动化

https://techcrunch.com/2024/03/12/nanonets-funding-accel-india/

Nanonets是一家利用AI自动化后台流程的初创公司，已在Accel领投的新一轮融资中筹集到2900万美元，以提高处理大量非结构化数据自动化流程的准确性。作为Y Combinator的校友公司，Nanonets建立了一个AI平台，提供无代码解决方案，帮助企业从文件、电子邮件、票据、数据库等中提取信息并转化为可行的洞见。该公司的AI平台使用机器学习架构来分析上传文档中的非结构化数据并提取有用信息。Nanonets计划使用这笔新资金进行研发，以提高系统的准确性，并投资于销售和市场营销。此轮融资将帮助公司扩大员工队伍，并将总融资额增至4200万美元。Nanonets主打财务服务领域，但也在逐步扩展到医疗和制造等更多相邻领域。

Axion Ray宣布由Bessemer Venture Partners领投的1750万美元A轮融资

https://www.prnewswire.com/news-releases/axion-ray-announces-17-5-million-in-series-a-funding-led-by-bessemer-venture-partners-302086459.html

Axion Ray，一家由领先制造公司依赖的AI可观察性指挥中心，用于检测和解决影响客户的新兴领域质量问题，宣布完成了由Bessemer Venture Partners领投的1750万美元A轮融资。这轮融资还包括RTX Ventures的战略投资，以及现有投资者Amplo和Inspired Capital的参与。这次融资使该公司的总融资额达到了2500万美元。Axion Ray计划利用这笔资金进一步扩展其AI在技术问题检测方面的能力，并扩大其市场推广努力到新的行业。

a16z公布的顶尖100个消费级AI应用

https://a16z.com/100-gen-ai-apps/

自从ChatGPT一年多前将生成式AI推向公众视野以来，我们见证了成千上万款新的消费产品的诞生，这些产品融合了AI的魔力，涵盖了从视频生成器到工作流程黑客、创意工具到虚拟伴侣等多种应用。安德森·霍洛维茨通过深入挖掘网站流量数据，区分出了最受欢迎的生成式AI网络产品，并发现了消费者实际使用这项技术的模式。他们的分析发现，与初始报告相比，榜单上超过40%的公司是新面孔。此外，他们还首次将网络和移动生成式AI产品分成两个单独的列表，这允许他们首次全面审视顶级AI移动应用，揭示了在网络与移动平台上使用生成式AI的显著差异。

学习

LLM padding 细节

https://zhuanlan.zhihu.com/p/675273498?utm_psn=1751559938508574720

文章讨论了大型语言模型（LLM）在批处理推理时使用padding的背景、影响及其正确使用方法。不正确的padding设置可能导致模型输出结果不准确。文章指出，当使用transformers库时，应检查tokenizer的padding_side参数是否正确设置，以避免模型在预测下一个token时错误地将padding token纳入计算。正确的padding策略和位置对于确保模型输出的正确性至关重要。文章还介绍了Llama模型的官方批处理推理流程，强调了在模型推理时正确处理padding的重要性。

CV+Transformer之Swin Transformer

https://zhuanlan.zhihu.com/p/361366090?utm_psn=1751605650029740032

Swin Transformer是一种结合了Transformer和卷积神经网络（CNN）的新型架构，专为解决计算机视觉（CV）任务设计。它通过引入层次化的结构和可调整的超参数，有效解决了图像尺寸大导致的长序列建模问题，并适用于分类、检测和分割等任务。Swin Transformer的关键创新包括Patch Partition/Patch Merging技术，以及窗口多头自注意力（W-MSA）和移位窗口多头自注意力（SW-MSA）模块，后者通过循环移位实现窗口间的交互。此外，Swin Transformer提供了不同尺寸的模型，以适应不同的计算能力和任务需求。

LLM模型量化世界观(上)

https://zhuanlan.zhihu.com/p/686232369?utm_psn=1751646776900448256

文章首先介绍了浮点数与定点数的区别，然后详细探讨了量化过程中的关键问题，如QAT（Quantization Aware Training）的学习机制、权重（Weight-only）量化的不同方法，以及如何在量化过程中保持模型性能。特别强调了OBS、OBQ、GPTQ、OWQ和AWQ等方法，讨论了它们在量化权重时对交叉维度的处理和对模型精度的影响。文章还提到了量化过程中的数学建模和优化策略，旨在提高量化效率和模型的推理加速。

2张卡训练70B的大模型（上） - 百亿大模型部署系列

https://mp.weixin.qq.com/s/ffCrlIOAR6A4EktDGdeYFA

本文介绍了如何使用消费级GPU（如两张3090/4090显卡）来训练70B规模的大型模型。通过结合FSDP（Fully Sharded Data Parallel）、QLoRA（量化和LoRA技术）和其他内存优化技术，作者展示了在有限的硬件资源下，如何有效地扩展模型训练。这些技术显著降低了内存需求，使得原本需要昂贵数据中心级硬件才能进行的训练变得可行。尽管存在加载时间增长和内存消耗增大的挑战，但这项技术为小型企业和个人开发者提供了微调大型模型的可能性。