大模型日报2月26日_saner.ai-CSDN博客

本文链接：https://blog.csdn.net/LLM_SPACE/article/details/136316934

特别活动

资讯

研究

解开化学语言模型中的「黑匣子」，Transformer可快速学习分子的部分结构，但手性学习困难

https://mp.weixin.qq.com/s/FvDxIEEOj76KHRR4sJxZdA

近年来，自然语言处理（NLP）模型，特别是 Transformer 模型，已应用于像 SMILES 这样的分子结构的文字表示。然而，关于这些模型如何理解化学结构的研究很少。为了解决这个黑匣子，东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明，虽然 Transformer 可以快速学习分子的部分结构，但它需要扩展训练才能理解整体结构。一致的是，从训练开始到结束，使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相似的。此外，发现 Transformer 需要特别长时间的训练来学习手性，并且有时会因对映体的误解而停滞不前，性能低下。这些发现有望加深对化学领域 NLP 模型的理解。

产业

OpenAI 首位投资人 Khosla 最新洞察：AI 使人机交互发生根本性转变，软件将进一步适应人类

https://mp.weixin.qq.com/s/sjuC8IyS5K9PwEDQu1l4Og

这是 OpenAI () 首位投资人 Vinod Khosla 关于 AI 交互与革命的最新洞察。Khosla 对常见术语“AI 硬件”和“小工具”表示怀疑，他主张从一个新的视角来看待这些设备，认为它们是即将到来的时代中不可或缺的组成部分，这个时代的特点是以低延迟语音交互作为主要的用户界面。Khosla 强调，这不仅仅是关于设备的讨论，而是关于人机交互根本性转变的讨论。他认为 AI 将在我们与技术的关系中引发两个根本性的变化。首先，语音——已经是最自然的人类互动界面——将成为主导的交互界面。

安卓率先跑通多模态大模型，终端本地就能看图生成文本！高通：WiFi都会AI起来

https://mp.weixin.qq.com/s/gZ6dGJ1jR254w5K4XqzfUw

多模态大模型，首次本地部署在安卓手机上了！现在，对着手机AI助手，输入照片、语音，都能自如对话，所有功能完全在终端侧运行。MWC 2024首日，高通就放大招，通通聚焦终端侧AI。手机上能跑多模态大模型之外，全球首个在Windows PC上运行的音频推理多模态大模型演示，也来了。它能理解音频并进行推理、可实现语音输入的多轮对话。

探索可穿戴设备各种可能，古尔曼称苹果正规划带摄像头的 AirPods 及智能戒指

https://www.ithome.com/0/751/960.htm

苹果正研究如何在 AirPods 耳机上配备摄像头及更先进的人工智能和健康传感器。该项目的代号是 B798，于去年启动，核心思路在于寻找一种将较低分辨率的摄像头传感器嵌入 AirPods 耳机的方法。 该产品的理念是以“低摩擦”的方式为用户提供 AI 体验和健康功能，耳机内部的摄像头可以用来拍照，并通过多模态语音、图像人工智能系统无缝为用户日常生活提供辅助。例如可以借助 AI 回答有关于用户正在观察的物体的问题。

荣耀首款AI PC亮相！CEO赵明：重构PC产业

https://mp.weixin.qq.com/s/ybzQpchM7-mmghsCUbZ_kw

大模型时代，终端厂商的AI决心，愈发凸显。荣耀AI PC，刚刚在巴塞罗那全球发布会上全新发布。用荣耀CEO赵明的话说，就是：这样一款产品充分体现了荣耀的思考，用AI重构PC产业。具体而言，在Magicbook Pro 16这样一款「AI PC」上，安卓和Windows两大平台实现了流畅互联，互联功耗降低25%的同时，组网速度提升了500%，还实现8台设备同时使用、8种服务同时流转。

NPU 加持，微软画图应用有望迎来全新 AI 功能

https://www.ithome.com/0/752/013.htm

过去几个月，微软画图应用（Paint）一直在不断更新功能，其中包括由 DALL-E 3 驱动的“共创”功能和移除背景图像功能。最近，微软甚至为画图添加了类似 Photoshop 的图层功能。现在运行于 Windows 11 系统的画图又将迎来一项全新的 AI 功能，该功能可能依赖于 NPU 运行。NPU，即神经网络处理单元 (Neural Processing Unit)，是一种专用的硬件组件，常配备于新的 Windows 11 电脑上，用于直接在设备上处理 AI 和机器学习任务。相比于依靠云端或通用 CPU，NPU 可以直接在设备上执行 AI 任务，提升处理效率。

推特

Tyler Perry在索拉首次亮相后暂停了一项8亿美元的工作室扩展计划，他警告人们AI的威胁

https://www.forbes.com/sites/elijahclark/2024/02/23/tyler-perry-warns-of-ai-threat-to-jobs-after-viewing-openai-sora/?sh=19c219d87071

当OpenAI展示了其最新系统Sora，这个系统能够仅凭简单文本提示生成视频、图像和剧本时，人们的反应从敬畏到警觉不一。在表达关切方面，没有人比娱乐巨头、著名的玛德亚系列电影背后的Tyler Perry更加直言不讳了。

在接受《好莱坞报道》的采访时，派瑞表示，他已经暂停了他在亚特兰大工作室计划中的8亿美元扩展项目，这一决定受到了人工智能进步的影响，尤其是OpenAI的Sora。派瑞原本打算在他330英亩的产业中增加12个音效舞台，对Sora的能力表示敬畏，他指出这项技术可能消除了外景旅行或搭建场景的需要。派瑞还发出了严厉的警告，因为他认为像Sora这样的工具对娱乐行业中人类创意工作者的生计构成了直接威胁。

RAG+函数调用黑客松总结：自动化A/B测试、AI硬件监听设备、解析语音命令，指导无人机导航

https://x.com/AlexReibman/status/1761724744951619592?s=20

可靠的函数调用技术已经激发了AI代理的巨大潜力。我们向超过150名黑客发起挑战，展示他们的才能。在@aiengfoundation举办的RAG+函数调用黑客马拉松中，AgentOps等多个团队脱颖而出。Alex Reibman介绍了几个引人注目的项目： AB Agent利用@FireworksAI_HQ工具进行自动化A/B测试，通过自然语言查询生成统计测试参数。 Orakul是一个AI硬件监听设备，可以整合生活中的各种数据（如Gmail, Dropbox等），让用户能与自己的数据进行交流。 Drone Vision项目通过Whisper技术和函数调用来解析语音命令，指导无人机导航，尽管在演示中有一架无人机不幸损坏。这些创新展示了AI技术在多个领域的应用潜力。

贾扬清：为什么GPU是一个套利市场

https://x.com/jiayq/status/1761876535877976376?s=20

我被问到为什么“GPU市场是一个套利市场”，让我将定义拆解为几个要点。

(1) 传统的云CPU市场非常适合按需使用：你请求它，使用它，然后释放它。当然，你可以预订1-3年的机器以获得更低的价格，但总的来说，按需CPU资源是充足的。

(2) 在GPU的情况下，这开始发生变化。以按需方式获取GPU要困难得多。特别是对于像A100和H100这样的最新卡片：在大型云上按需获取机器非常困难，如果不是不可能的话。当你得到它时，它带有一个臭名昭著的高价标签。

(2-1) 我不怪云服务提供商。我曾在@alibaba_cloud担任AI和大数据服务的副总裁兼总经理，对此有直接的了解。供应链紧张，每台机器的成本高，与通用CPU不同，你不能重用空闲的GPU来运行其他工作负载，如网络服务/数据库/消息队列。结果，GPU资源自然比CPU资源更贵。

(3) 这种需求和供应关系开始触发我所说的“替代GPU供应商”出现。思路是：嘿，为什么我不提供比云服务提供商便宜得多的GPU，去掉所有的附加服务（存储、中间件、数据库等），只提供原始计算能力，因为AI用户真正需要的只是计算能力，而不是其他花哨的网络服务软件？

(4) 这样的替代GPU供应商，最著名的有@CoreWeave、@LambdaAPI，最近还有@runpod_io / @sfcompute等，与传统大型云的商业模式截然不同。换句话说，云服务是Uber / Hertz：你可以按需获得汽车；替代GPU是租赁：你可以租用一两年的汽车。

(5) 从商业角度看，这些供应商试图通过将他们从Nvidia购买的GPU与他们向终端用户销售的GPU匹配起来，来优化利用率。这样他们就可以避免收取高昂的每GPU小时价格，或者不得不承担过多的闲置GPU沉没成本。

(5-1) 这种GPU提供商的潜在缺点是，你突然不得不处理一堆原始IP地址，而不是以“云原生”的方式使用资源。这就像从现代的K8s转向老式的VPS。当然，作为用户，你节省了基础设施成本，但你需要为内部平台团队预算，或者找到一个好的SaaS平台提供商。

(5-2) 为了澄清，我不是在批评缺乏软件层。作为一个平台人，我钦佩并感激他们运行高效供应链的能力。他们在GPU短缺中提供了与大云的关键平衡：他们提供了一种不同的资源使用方式。归根结底，这就是为什么我们有Uber、Hertz、汽车租赁和购买汽车：这是一个光谱。

(6) 广告时间：我们与原始GPU供应商是互补的。如果你从一个替代云供应商那里预留了一堆GPU，或者你在IDC运行自己的GPU集群，并希望拥有一个好的平台，@LeptonAI能够提供给你。

Prince Canuma分享视频教程：开始使用谷歌的新开源大型语言模型Gemma

https://x.com/LangChainAI/status/1761803241778528735?s=20

在本地总结大型PDF文件

使用谷歌的新开源大型语言模型Gemma开始

这个来自@Prince_Canuma的视频展示了如何通过@huggingface使用Gemma来总结长文档

华盛顿大学教授Mario Juric怒怼谷歌：Gemini风险的帖子根本没有说实话

https://x.com/mjuric/status/1761981816125469064?s=20

我对@Google感到失望。我知道那里有许多优秀的个人，但作为一家公司，他们已经不可挽回地失去了我的信任。我要“搬出去”了。原因如下：

我一直在阅读Google关于Gemini的风险控制帖子。我认为他们根本就没有说实话。首先，他们的纯文本产品存在同样（如果不是更糟）的问题。其次，如果你对这些模型的构建方式有所了解，你就会知道这些“错误”的答案不是偶尔的无辜错误。Gemini的输出反映了许多、许多、全职员工年的标注努力、训练、微调、提示设计、QA/验证——所有这些都是由构建它的团队迭代指导的。你也可以确信，在发布它之前，许多人已经在内部尝试了这个产品，给高级产品经理和副总裁们做了许多演示，他们都认为这很好，最终都签字同意发布。基于这样的背景，输出结果是无辜的bug的可能性极低——正如@googlepubpolicy现在试图表达的：Gemini是一个完全按照设计运行的产品，准确反映了构建它的人的价值观。

这些价值观似乎包括一种强烈的愿望，想要以特定的方式重塑世界，这让涉及的人们能够合理化地对自己说，训练他们的AI将意识形态置于提供用户事实之前不仅是可接受的，而且是值得的。改写历史，模糊现状，彻底隐藏与公司（员工）对“好”的印象不一致的信息。我不在乎其中一些意识形态是否与你或我对如何让世界变得更美好的想法相符：对于任何有一点人类历史意识的人来说，建立一个旨在成为人类知识权威汇编的系统（还记得Google的使命声明吗？），但实际上却将意识形态置于事实之上，应该很清楚这是多么不可思议的不负责任。历史上充满了许多尝试这种道德灵活性“为了更大的好处”的人；与其帮助，他们通常导致几十年的挫折（和数千万的受害者）。

抛开社会责任不谈，在纯粹的商业意义上，构建一个明确将公司的社会议程置于客户需求之前的产品是极其愚蠢的。想想看：G的搜索——尽管有它的问题——被认为是一个好工具，因为它专注于提供准确和有用的信息。它的使命与用户的目标一致（“快速准确地找到我需要的东西的正确答案！”）。这就是为什么我们都使用（过）它。我一直以为Google的AI努力会遵循这一模式，这将转移用户基础并锁定另外1-2十年的主导地位。

但他们做了相反的事情。在Gemini之后，Google将被视为一个以用户为中心的公司，首先是一个激进的组织——准备为了推进他们（员工）的社会议程而对用户撒谎。这是巨大的。你会雇用一个公开有着不一致（并且是秘密的——他们隐藏系统提示）议程的个人助理吗，你根本无法信任？谁坚信他们比你更了解？当你的利益发生分歧时，你怀疑他们会秘密对你撒谎（直接或通过遗漏）？忘掉cookies、广告、隐私问题或YouTube内容审查；Google刚刚让超过50%的人口通过这个场景，并质疑核心业务及其运营人员的可信度。而不是在典型的财务（“他们在剥削我！”）层面，而是在意识形态层面（“他们讨厌像我这样的人！”）。据我看来，这将很难重置。

那么未来呢？看看Google的AI责任原则（https://ai.google/responsibility/principles/）并问问自己，如果负责带给你Gemini的员工被任务解释它们并据此重建搜索，搜索会是什么样子？你会信任那个产品吗？你会使用它吗？好吧，随着Google承诺到处使用Gemini，那就是我们将得到的（https://technologyreview.com/2024/02/08/1087911/googles-gemini-is-now-in-everything-heres-how-you-can-try-it-out/）。在这个崭新的世界里，每次你进行搜索时，你都会问自己“它告诉了我真相，还是撒了谎，或隐藏了一些东西？”。这对一个围绕组织信息构建的公司来说是致命的。

这就是为什么，从这个周末开始，我已经开始从我的个人生活中脱离Google生态系统，并将我的信息搬出。这可能需要大约一年的时间（几乎投资于从搜索到Pixel到助手到更晦涩的东西如Voice），但必须要做。然而，真的，真的很难过……

PixelCascade v0.1发布：首个为Stable Cascade阶段C设计的Pixel Art LoRa

https://x.com/nerijs/status/1761946343063331215?s=20

PixelCascade v0.1已在@huggingface上发布！

https://huggingface.co/nerijs/pixelcascade128-v0.1

首个为Stable Cascade阶段C设计的Pixel Art LoRa。

主要面向128x128，但在256x256上也表现出色！

比Pixel Art XL更快、更小且整体更优秀🎉

论文

Genie: 生成式交互式环境

链接：http://arxiv.org/abs/2402.15391v1

我们推出了Genie，这是第一个从未经监督训练的、由未标记的互联网视频生成的交互式环境。这个模型可以被提示以生成通过文本、合成图像、照片，甚至草图描述的无限多种可控行动的虚拟世界。在拥有110亿参数的情况下，Genie可以被看作是一个基础世界模型。它由一个时空视频分词器、自回归动力学模型以及一个简单且可扩展的潜在行动模型组成。Genie使用户能够在生成的环境中基于逐帧基础行动，尽管训练过程中没有任何基于事实的行动标签或其他在世界模型文献中通常找到的领域特定要求。另外，所学到的潜在行动空间有助于训练智能体模仿来自未见视频的行为，为未来训练通用性智能体开启了道路。

MobileLLM: 优化子十亿参数语言模型，适用于设备端使用案例

链接：http://arxiv.org/abs/2402.14905v1

本文解决了移动设备上高效大语言模型(LLMs)的增长需求，受到云成本和延迟问题日益增加的驱动。我们专注于设计具有不到十亿参数的高质量LLMs，这是移动部署的实际选择。与强调数据和参数数量在决定模型质量中发挥关键作用的普遍观念相反，我们的调查强调了模型架构对亚十亿规模LLMs的重要性。利用深而薄的架构，再加上嵌入共享和分组查询注意机制，我们建立了一个强大的基准网络，称为MobileLLM，比之前的125M/350M最新模型分别提升了2.7%/4.3%的准确性。此外，我们提出了一种立即的分块权重共享方法，不增加模型大小，只有轻微的延迟开销。由此产生的模型，称为MobileLLM-LS，展现出比MobileLLM 125M/350M进一步的0.7%/0.8%准确性提升。此外，MobileLLM模型系列在聊天基准测试上相比先前的亚十亿模型表现出显著改进，并在API调用任务中展现出与LLaMA-v2 7B接近的正确性，突显了小型模型在常见的设备使用情况下的能力。

AgentOhana：设计统一的数据和训练流程以实现有效的智能体学习

链接：http://arxiv.org/abs/2402.15506v1

独立智能体凭借大语言模型(LLMs)引发了重大研究关注。然而，充分发挥LLMs潜力以应对智能体任务中的固有挑战，由于不同数据源的异质性特性，存在多轮轨迹。本文介绍AgentOhana，作为解决这些挑战的全面方案。AgentOhana聚合来自不同环境的智能体轨迹，涵盖各种场景。它精心标准化和统一这些轨迹，将其整合为一致的格式，简化用于智能体训练的通用数据加载器的创建。利用数据统一性，我们的训练流程在不同数据源之间保持平衡，在数据集分割和模型训练过程中保留设备之间的独立随机性。此外，我们提出了xLAM-v0.1，一种针对AI智能体量身定制的大型行动模型，展示了在各种基准测试中的卓越表现。

Orca-Math：释放智能体在小学数学中 LLMs 的潜力

链接：http://arxiv.org/abs/2402.14830v1

数学问题求解长期以来一直被认为是智能体（SLMs）的复杂任务。最近有研究假设，要在GSM8K基准上达到80%以上的准确率所需的最小模型大小为340亿个参数。为了用更小的模型达到这一性能水平，研究者通常训练SLMs生成Python代码，或使用工具帮助避免计算错误。此外，他们采用集成技术，将多达100个模型运行的输出合并以获得更准确的结果。结果选择是通过共识、多数投票或与SLM一起使用的验证者模型完成的。集成技术显著提升准确度，但在多次调用模型时成本显著增加（例如Phi-GSM使用前48名将性能从68.2%提升至81.5%）。在这项工作中，我们介绍了Orca-Math，一个基于Mistral-7B的70亿参数SLM，在GSM8k上达到86.81%的准确率，无需多次模型调用或使用验证者、代码执行或其他外部工具。我们的方法具有以下关键要素：（1）使用多智能体设置创建的20万个数学问题高质量的合成数据集，智能体合作创建数据，（2）迭代学习技术，使SLM能够练习解决问题，接收解决方案的反馈并从包括SLM解决方案和反馈的偏好对中学习。仅通过监督微调进行训练时，Orca-Math在GSM8k的pass@1指标上达到81.50%。通过迭代偏好学习，Orca-Math实现了86.81%的pass@1。Orca-Math超越了明显更大的模型，如LLAMA-2-70B、WizardMath-70B、Gemini-Pro、ChatGPT-3.5。它还在使用更小数据（数十万对数百万问题）时明显优于其他较小的模型。

MemoryPrompt：一种改进预训练语言模型上下文追踪的轻量包装器

链接：http://arxiv.org/abs/2402.15268v1

基于Transformer的语言模型（LM）通过大而难以输入窗口跟踪上下文信息。我们引入MemoryPrompt，一种更精简的方法，其中LM由一个小型辅助递归网络补充，通过在其常规输入前加上一系列向量（类似于软提示）将信息传递给LM，而无需进行LM微调。在一个旨在检验LM跟踪多个事实更新能力的任务上进行了测试，MemoryPrompt增强的LM表现出色，优于那些可以访问完整输入历史记录的更大的LM。我们还在一个远程对话数据集上对MemoryPrompt进行了测试，在这里它的性能与一个依赖整个对话历史的模型相媲美。在两个实验中，我们还观察到，与完整微调方法不同，MemoryPrompt在适应新任务时不会遭受灾难性遗忘，因此不会干扰基础LM的泛化能力。

Transformer如何用梯度下降学习因果结构

链接：http://arxiv.org/abs/2402.14735v1

摘要：Transformer在序列建模任务上取得了令人难以置信的成功，这在很大程度上归功于自注意力机制，它允许信息在序列的不同部分之间传递。自注意力使Transformer能够编码因果结构，使它们特别适合序列建模。然而，Transformer通过基于梯度的训练算法学习这种因果结构的过程仍然了解很少。为了更好地理解这一过程，我们引入了一个需要学习潜在因果结构的上下文学习任务。我们证明，简化的两层Transformer上的梯度下降学习解决这个任务，通过在第一个注意力层中编码潜在因果图。我们的证明的关键见解是，注意力矩阵的梯度编码了令牌之间的互信息。由于数据处理不等式的影响，这个梯度的最大条目对应于潜在因果图中的边缘。作为一个特例，当序列是从上下文马尔可夫链生成时，我们证明Transformer学会了归纳头（Olsson等，2022）。我们通过展示，在我们的上下文学习任务上训练的Transformer能够恢复各种因果结构，证实了我们的理论发现。

在深度强化学习中，被修剪的网络是一个好的网络

链接：http://arxiv.org/abs/2402.12479v1

近期研究表明，深度强化学习智能体在有效利用网络参数方面存在困难。我们利用先前对稀疏训练技术优势的见解，证明逐渐剪枝可以使智能体最大化参数效果。这导致网络在传统网络上取得显著性能提升，并展现出一种“缩放规律”，仅使用完整网络参数的一小部分。

回到基础: 重新审视REINFORCE风格优化用于让在 LLMs 中从人类反馈学习

链接：http://arxiv.org/abs/2402.14740v1

AI 对齐以强化学习从人类反馈中涌现出来的形式（RLHF）越来越被视为高性能大型语言模型的关键要素。近期文献将\textsc{Proximal Policy Optimization} (PPO) 定位为 RLHF 部分的经典方法。然而，它涉及高计算成本和敏感的超参数调整。我们认为，导致开发PPO的大部分动机原则在RLHF中不太实际，主张采用一种少量计算昂贵但保留甚至提高性能的方法。在RL的背景下重新审视人类偏好对齐的公式。遵循简单原则，我们发现许多PPO组件在RLHF环境中是不必要的，并且远比PPO和新提出的“无RL”方法（如DPO和RAFT）更简单的REINFORCE样式优化变体表现更好。我们的工作表明，对LLMs对齐特性的慎重适应能够让在线RL优化以较低成本受益。

CodeMind：挑战 LLMs 进行代码推理的框架

链接：http://arxiv.org/abs/2402.09664v3

仅仅依赖测试通过来评估大型语言模型（LLMs）进行代码合成可能导致不公平的评估或者促进具有数据泄漏的模型。作为替代，我们引入了CodeMind，这是一个旨在评估LLMs的代码推理能力的框架。CodeMind目前支持三种代码推理任务：独立执行推理（IER）、依赖执行推理（DER）和规范推理（SR）。前两个评估模型是否能预测任意代码的执行输出或者模型是否能正确地合成代码。第三个评估LLMs实现指定预期行为的程度。

我们对使用CodeMind在两种不同编程语言的五个基准测试中对九个LLMs进行了广泛评估，结果显示LLMs相对公平地遵循控制流构造，并且在一般情况下解释了输入如何演化为输出，特别是对于简单程序和它们可以正确合成的程序。然而，它们在具有更高复杂性、非平凡逻辑和算术运算符、非原始类型和API调用的代码中表现不佳。此外，我们观察到，尽管相关，规范推理（对于代码合成至关重要）并不意味着执行推理（对于更广泛的编程任务如测试和调试至关重要）：根据测试通过进行LLMs排名可能与代码推理不同。

产品

Saner.AI

https://saner.ai/

Saner.ai 是一个帮助知识工作者节省时间并提高工作质量的工具。它提供了一系列功能，包括即时保存、自动组织、语义搜索、人工智能提问、思维导图视图等。Saner.ai 帮助用户轻松使用自己的知识，从而在学习、计划和创造方面产生高质量的工作。用户可以在网络上进行学习，记录笔记、搜索记忆内容、与个人 AI 互动等。这个工具的推出旨在让用户更高效地利用自己的知识，提升工作效率。

Riff

https://riff.desivocal.com/

Riff 是一款 AI 音乐创作工具，它是一个高清音乐生成器，可为用户的项目制作完美的配乐。用户可以通过 Riff 制作适合 YouTube 视频、TikTok 视频、电影、播客等内容的音乐。这款工具使用最新的人工智能技术，能根据用户的提示生成免版税的音乐，为项目增添魅力。

AFFiNE

https://affine.pro/

AFFiNE 是一个开源的多合一工作区，也是一个操作系统，用于组装您的知识库等所有构建块 wiki、知识管理、演示和数字资产。支持文档/白板/表格无缝切换，具备 Notion+Miro 的强大功能属性，帮助你和团队构建知识库 wiki、一键生成 ppt 和思维导图，多模态 AI 也在同步预热中。

HuggingFace&Github

gemma.cpp

https://github.com/google/gemma.cpp

gemma.cpp 是 Google 的 Gemma 基础模型的轻量级独立C++推理引擎，提供 Gemma 2B 和 7B 模型极简实现的代码文件。它专注于简单性和直接性，旨在用于实验和研究用例。这个代码文件旨在易于嵌入到其他项目中，具有最小的依赖性，并且可以通过一个小型的核心实现进行轻松修改。

PyRIT

https://github.com/Azure/PyRIT

PyRIT 是一个用于生成式 AI 的 Python 风险识别工具，帮助安全专业人员和 ML 工程师评估其模型对不同危害类别的鲁棒性，如捏造/不接地气的内容、滥用和违禁内容。该工具自动执行 AI 红队任务，使操作员能够专注于更复杂、更耗时的任务，并识别安全和隐私危害。此外，PyRIT 还可帮助研究人员比较模型的基线表现和未来迭代，以获得实证数据并改进缓解措施。在 Microsoft 等机构中，PyRIT 还被用于改进产品版本以更有效地防止提示注入攻击。

投融资

AI 游戏初创公司 “奇酷网络”获500万天使投资

https://www.pedaily.cn/first/102394.shtml

“AI+游戏”应用公司“奇酷网络”日前宣布，以3000万元人民币的估值获得500万元人民币的融资，资金来源于一名百度高层和一位天使投资人。公司产品目前仍处于高度保密阶段。

学习

“闭门造车”之多模态模型方案浅谈

https://mp.weixin.qq.com/s/sPJyAOqEqktoBx4Ttijilw

这篇文章探讨了多模态模型架构，特别是图文混合的双模态模型。作者提出了一种基于原始图像Patch和文本Token的多模态生成方法，旨在实现无损压缩和高效生成。文章分析了图像生成的困难，如连续变量的概率建模，以及现有方法如VAE、GAN、Flow和Diffusion的局限性。作者还讨论了使用Transformer直接处理图像Patch的可行性，并分享了相关实验结果。最后，文章提出了一种结合扩散模型和Transformer的多模态生成方案，以期实现高质量的图文混合生成。

选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试

https://mp.weixin.qq.com/s/5_L3uWrUJefGjul_uhJJMw

本文对比了OpenAI的新一代嵌入模型（embedding v3）与开源多语言嵌入模型的性能。通过在欧洲人工智能法案的24种语言版本上生成自定义Q/A数据集，并在这些数据集上评估模型的准确性，结果显示开源模型BGE-M3表现最佳。OpenAI的模型在不同尺寸下性能相似，而减小嵌入尺寸并未带来预期的性能提升。开源模型提供了数据控制的优势，但OpenAI的API可能在便利性方面更胜一筹。

合成数据(Synthetic data)微调大语言模型实战指南：背景、方案、案例、代码、评估

https://mp.weixin.qq.com/s/YNlwMF1BzzvWB2nUQ54JBQ

本文提供了一个实战指南，展示了如何使用合成数据微调大型语言模型（LLM）。通过案例研究，作者介绍了如何利用开源LLM创建高质量的合成数据集，并在这些数据上训练一个定制的、更高效的模型。这种方法结合了LLM API的便利性和自定义模型的控制和效率，显著降低了成本和环境影响，同时保持了与大型LLM相当的性能。作者还提供了可重复使用的代码，以便读者将这种方法应用于自己的用例。

当"狂飙"的大模型撞上推荐系统

https://mp.weixin.qq.com/s/I6x3B7lBdvKOAsWpvc-fIw

本文探讨了大模型技术在推荐系统中的应用，指出大模型如ChatGPT的泛化能力和效率为推荐系统带来了革命性变化。文章介绍了大模型在推荐系统中的三个主要应用方向：文本表征、Prompt学习和结合GPT与传统推荐技术。同时，提出了个性化Prompt优化、鲁棒性提升和避免大模型偏见等未来研究方向。最后，建议使用大型基础模型，保持生成能力，并融合统计信息以提升推荐效果。