
多模态大模型
文章平均质量分 86
罗列当前的主流多模态大模型
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
【最新开源】美研究机构发布全球最大生物学AI模型Evo 2!阶跃星辰首次开源Step系列多模态大模型!
2月19日,美国 Arc Institute 与英伟达合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员,共同推出了——。该模型以超过 128,000 个基因组的数据为基础,训练了 9.3 万亿个核苷酸,使其规模与最强大的生成性 AI 语言模型相媲美。是一种先进的 DNA 语言模型,专注于长上下文的建模和设计。它能够在单核苷酸分辨率下对 DNA 序列进行建模,支持长达 100 万碱基对的上下文长度。原创 2025-02-25 15:48:56 · 797 阅读 · 0 评论 -
阿里国际开源Ovis2多模态新王炸!DeepSeek开源首个代码库FlashMLA!
系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。Hopper 是英伟达的GPU(图形处理芯片)架构,例如H100和H800,发布于2022年,主要用于AI计算。引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。原创 2025-02-25 15:44:10 · 481 阅读 · 0 评论 -
最新开源: Hugging Face最小AI视觉语言模型登场!百川智能开源Baichuan-M1医疗增强大模型!
基于 GenAI 技术构建,而依赖于逻辑链条(Chain-of-Thought,CoT)来逐步推导出解决方案,这是一种用技术换时间和算力资源的方案,使思考模型可以用 10 分钟做完一套高考数学卷,分数超过 120 分,在逻辑推理能力上,进一步靠近人类专家。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,尤其适合内存少于 1GB 的设备如笔记本电脑,为开发者提供更广泛的应用场景。让生成的「白模」(没上色的模型)效果“堪比设计师手工建模”。原创 2025-02-14 11:20:06 · 1029 阅读 · 0 评论 -
最新开源:VITA-1.5:实时视觉与语音交互,1.5秒互动延迟
的独特之处在于其能够进行高效的语音对话,无需单独的自动语音识别(ASR)和文本到语音(TTS)模块,这对于加速端到端多模态系统的响应时间具有颠覆性意义。,包括视觉对齐、视觉理解和视觉有监督微调,旨在弥合视觉和语言之间的差距,并使模型能够理解图像内容和回答视觉问题。,是一个开源的集成了视觉、语言和语音的多模态大语言模型,旨在实现类似 GPT-4o 水平的实时视觉和语音交互。,包括编解码器训练和 NAR + AR 解码器训练,旨在使模型能够生成语音输出,实现端到端的语音交互。输出端则具有一个端到端的。原创 2025-01-16 09:30:00 · 642 阅读 · 0 评论 -
Aria-UI:面向GUI智能交互的多模态模型,超越Claude 3.5
通过开创性的「纯视觉理解」方案彻底改变了这一现状,无需任何后台数据支持,仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。是一个轻量级且快速的混合专家(MoE)模型,每个token激活 3.9B 参数,支持超高分辨率,能够高效编码不同大小和纵横比的 GUI 输入。,一款采用纯视觉理解的多模态模型(LMM),凭借其令人瞩目的性能表现,迅速成为AI技术圈中的焦点,甚至超越了Claude 3.5。,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。原创 2025-01-16 09:24:40 · 423 阅读 · 0 评论 -
智源发布 FlagEval 全球100+大模型综合评测结果!国产大模型拿下多个冠军!
今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。原创 2025-01-06 10:26:46 · 993 阅读 · 0 评论 -
最新开源:国产大模型DeepSeek-V3来了!阿里云开源首个多模态推理模型QVQ!腾讯推出新型翻译模型 DRT-o1
DeepSeek-V3 的成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview 表现出色,有效缩小了与领先的最先进的 OpenAI o1 模型之间的差距,与 Claude3.5 Sonnet等推理模型相当。DeepSeek-V3 在多种标准基准测试中表现优异,尤其在数学和代码任务上表现突出。原创 2025-01-06 10:19:27 · 3051 阅读 · 0 评论 -
【2024年终总结】2024年AI大模型总结报告 | Artificial Analysis
2024年是大模型发展非常迅速的一年,我们见证了太多AI技术变革带来的惊艳!这一年里,各家大模型的能力提升层出不穷。LLM方面,OpenAI发布了更强的o系列模型;文生图开源模型也出现了 SD 的替代者 Flux;视频生成模型更是百花齐放,很多大模型公司都推出了类 Sora 的视频生成模型。近日,回顾了2024年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。Artificial Analysis 是一家领先的独立AI基准测试和分析平台,上面分析的模型不仅包括,还有如文生图、文生视频等等。原创 2025-01-06 09:48:38 · 1294 阅读 · 0 评论 -
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言模型PaliGemma 2!
对硬件资源的要求大幅降低。(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块生成特定的嵌入(embedding),最终提取图像的整体语义。的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。技术,通过整合分组查询注意力(GQA)机制,Llama 3.3 提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。原创 2024-12-10 16:32:17 · 8041 阅读 · 0 评论 -
国内“推理模型”卷疯了!类 o1 推理模型,谁更强?
在多模态推理基准测试中超越了其基础模型 8.9%,并在性能上超越了一众开闭源模型,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。但 OpenAI 并没有公开 o1 模型的具体技术细节,从各高校、研究机构的 o1 模型复现研究来看,o1 的主要技术路线为「搜索+强化学习」,即对思维链进行搜索,然后用强化学习去学习搜索的过程。最近,国内有很多大模型公司开始发布类似 o1 的模型,虽然不排除有炒作的嫌疑,但说明大模型的竞争是非常激烈的!原创 2024-12-03 10:24:54 · 1598 阅读 · 0 评论 -
最新开源:阿里开源QwQ-32B-Preview推理大模型!月之暗面Kimi开源大模型推理架构 Mooncake!阿里开源图像生成模型Qwen2VL-Flux!
是由 Moonshot AI 提出的长文高效推理架构,它采用了 KVCache 为中心的分离架构,将预填充和解码集群分开,并利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。在全面考察数学解题能力的 MATH-500 评测中,QwQ 斩获 90.6% 的高分,一举超越OpenAI o1-preview 和 o1-mini,体现了在各类数学主题上的全面理解;不仅能够根据用户输入的图像生成多幅相似图像,还支持文本引导的图像混合和图像引导的图像融合。原创 2024-12-02 15:32:20 · 1822 阅读 · 0 评论 -
最新开源:「天工大模型4.0」o1版来了!国内首款中文逻辑推理能力o1模型
图:在求解组合(从 10 人中选出 3 人组成一队,共多少种选择)问题时,Skywork o1 Preview 在全链路思考过后,答案正确。图:在比较 13.8 与 13.11 孰大孰小时,Skywork o1 Lite 给出了完整的思维链路,找出解题的关键在于小数位大小。与当前市场上基于OpenAI o1模型的复现工作不同,Skywork o1 不仅在输出结果上展现了深度的。,而且在标准测试集中的表现远超常规模型,实现了推理性能的显著提升。技术,能模仿人类的思维过程,显著提升逻辑推理和复杂任务解决能力。原创 2024-11-28 16:21:52 · 735 阅读 · 0 评论 -
清华、北大团队推出 LLaVA-o1:首个自发性视觉 AI 模型
LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。LLaVA-o1(11B) 在六个具有挑战性的多模态基准测试中表现优异,超越了其他竞争者,如 Gemini-1.5-Pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。图 3. 生成 LLaVA-o1-100k 数据集的流程。原创 2024-11-21 13:18:33 · 977 阅读 · 0 评论 -
Mistral AI 再发力!最强开源多模态模型 Pixtral Large!对标ChatGPT全面升级le Chat!
Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B,如今,Pixtral 12B 技术报告全公开。从论文的测试结果来看,Pixtral 12B 明显优于其他类似大小的开源模型(比如 Llama-3.2 11B 和 Qwen-2-VL 7B),甚至在一些评测中,表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。原创 2024-11-20 13:01:35 · 1556 阅读 · 0 评论 -
最新综述:多模态引导的基于文生图大模型的图像编辑算法
近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。图2.综述框架旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为的常用工具。原创 2024-07-09 10:20:50 · 1696 阅读 · 0 评论 -
国产开源多模态大模型来了!浦语灵笔 InternLM-XComposer-2.5,超过GPT-4V
(InternLM-XComposer-2.5,简称IXC-2.5)是基于大语言模型研发的突破性的图文多模态大模型,仅使用7B LLM 后端就达到了 GPT-4V 级别的能力。使用24K交错的图像-文本上下文进行训练,通过ROPE外推可以无缝扩展到 96K 长的上下文。这种长上下文能力使在需要广泛输入和输出上下文的任务中表现出色。原创 2024-07-09 10:00:51 · 1141 阅读 · 0 评论 -
智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B
智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本:CodeGeeX4-ALL-9B,其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型,是目前百亿(10B)参数以下性能最强、最全能的代码大模型。模型的核心功能 Demo 和使用教程已经在 GitHub 上开源,模型权重可在 HuggingFace、ModelScope、WiseModel 等大模型平台下载。原创 2024-07-09 09:16:03 · 1608 阅读 · 0 评论 -
权威!IDC《中国大模型市场主流产品评估,2024》报告发布
6月12日,国际数据公司 IDC 发布《中国大模型市场主流产品评估,2024》,从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。结果显示,百度位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。图注:IDC 题目类型IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。原创 2024-06-18 15:38:09 · 2370 阅读 · 0 评论 -
AI 大佬 Andrej Karpathy 推荐:LLM 性能提升的秘密 —— FineWeb 数据集
在上述数据集的基础上,团队推出了 FineWeb-Edu,这是 FineWeb 的一个子集,专注于教育内容,表现优于所有公开可访问的网络数据集。FineWeb-Edu 子集基于最近出现的一种过滤 LLM 训练数据集的新方法:使用合成数据来开发识别教育内容的分类器。为此,FineWeb 团队就深入探讨了如何创建一个用于 LLM 预训练的大型高质量网络规模数据集,并讨论了大规模数据质量的处理和评估、FineWeb 配方(列出并解释了所有的设计选择)以及创建 FineWeb-Edu 子集的过程。原创 2024-06-04 17:24:21 · 1388 阅读 · 0 评论 -
ChatTTS:对话式文本转语音模型,开源啦!突破开源语音天花板...
最近,一个名为 ChatTTS 文本转语音项目爆火出圈,短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。ChatTTS:对话式文本转语音模型项目地址:https://github.com/2noise/ChatTTS/tree/main体验地址:https://huggingface.co/2Noise/ChatTTSChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语,包括中英混合模式。原创 2024-06-04 15:12:51 · 1494 阅读 · 2 评论 -
OpenAI 宣布 GPT-4o 向所有人免费开放!
5月30日,OpenAI 宣布,ChatGPT正式向所有用户免费开放!ChatGPT 免费用户现在可以尝试更多 GPT-4o 的新功能,包括访问自定义 GPT 模型、数据分析和图表创建等。此前这些高级功能仅对付费用户开放,现在所有用户均可体验这些功能。不过,在使用次数上官方没有更新公告,预计还是会有一定次数限制。这对于免费用户来说可是大好事,但是对付费用户就有点扎心了,不禁质问:如果每个人都免费,为什么我要付费?其实,免费用户和付费用户还是存在一些区别的。原创 2024-06-04 14:15:05 · 7066 阅读 · 0 评论 -
多语言大模型 Aya-23 开源!覆盖23种语言,性能刷新SOTA
近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了解决上述问题,最近,加拿大AI独角兽公司 Cohere 开源了两种参数规模的多语言指令微调模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。论文链接:https://arxiv.org/pdf/2405.15032。原创 2024-06-04 14:10:02 · 1429 阅读 · 0 评论 -
全球最强端侧多模态模型!国产「面壁小钢炮」MiniCPM-Llama3-V 2.5 来了!
得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V 2.5 仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V 2.5 丝滑交互。OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现!原创 2024-06-04 13:58:26 · 3047 阅读 · 0 评论 -
大佬 Ilya Sutskever 的神级论文清单,学完掌握当前AI 90%的知识!
在计算机视觉方面,Ilya 推荐了 2012 年 ImageNet 图像识别大赛中图灵奖得主 Geoffrey Hinton 组的论文《ImageNet Classification with Deep Convolutional Neural Networks》,这篇论文提出了 AlexNet,引入了全新的深层结构和 dropout 方法,颠覆了图像识别领域,甚至被认为开启了深度学习革命。Transformer 架构今天已经成为人工智能领域的主流基础架构,特别是它是生成式 AI 模型的核心架构。原创 2024-06-04 13:50:31 · 3546 阅读 · 0 评论 -
AI一周大事记 | 主动式AI应用崛起,国内大模型厂商继续发力,微软AI全家桶狂飙...
5 月 22 日,历时4个月打磨,百川智能发布最新一代基座大模型 Baichuan 4,并推出成立之后的首款AI助手“百小应”。相较于前代Baichuan 3,迭代后的Baichuan 4在各项能力上均有极大提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%,在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一。原创 2024-06-04 13:42:27 · 1016 阅读 · 0 评论 -
小模型时代来了?苹果开源OpenELM,公开代码、权重、数据集、训练全过程
4月24日,苹果开源了大语言模型(Open-source Efficient Language Models,即“开源高效语言模型”)。这与微软刚开源的Phi-3-mini类似,是一款专门针对手机等移动设备的模型。系列模型包含共4个不同参数版本,共包括,提供生成文本、代码、翻译、总结摘要等功能。基于较小的参数量,这些模型可在端侧设备上独立运行,而不必连接云端服务器。原创 2024-04-26 14:43:35 · 2012 阅读 · 0 评论 -
微软发布「轻量级AI模型」Phi-3-mini,性能逼近GPT-3.5,可手机端运行
Phi-3-medium-14B 是新增的最大参数版本的Phi模型,参数140亿,架构与最小的Phi-3-mini-3.8B 相同,但是训练的epoch更多,训练的数据量和 Phi-3-small-7B 一样,4.9万亿tokens。当地时间 4 月 23 日,微软发布了 Phi-3 系列模型,最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-3-mini-3.8B、Phi-3-small-7B 和 Phi-3-medium-14B。该模型的体积很小,可以部署在手机上。原创 2024-04-26 14:32:47 · 1677 阅读 · 0 评论 -
一周SOTA:Meta 发布 Llama 3;Mistral AI 开源 Mixtral 8x22B;阿里开源代码模型CodeQwen1.5;面壁 MiniCPM 2.0 发布
Meta 正式开源Llama 3,发布8B、70B参数大小的基础模型和指令微调模型版本,是同等规模中的最佳模型。此外,Llama 3 最大的模型规模超过400B,虽然该模型正在训练中,但 Meta 表示未来将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口和更强大的性能,并将推出新的模型尺寸版本和公开 Llama 3 的研究论文。相比前两代,Llama 3 在训练成本、训练时间、模型架构等多个方面有了很大的升级。上下文长度:Llama系列的上下文长度一直在增长。原创 2024-04-25 09:23:09 · 1606 阅读 · 0 评论 -
最强开源大模型Llama 3发布!最大版本是4000亿参数规模!性能直逼GPT-4!
当地时间4月18日,Meta 官宣发布其最新开源大模型 Llama 3。目前,Llama 3 已经开放了 80亿 和 700亿 两个小参数版本,上下文窗口为8K。未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!原创 2024-04-19 18:11:31 · 2390 阅读 · 0 评论 -
一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源
上周,Stability AI 开源 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model,Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,AI21 Labs 宣布开源 MoE 大模型 Jamba。原创 2024-04-17 10:26:29 · 888 阅读 · 0 评论 -
细数AI程序员 Devin、SWE-agent、通义灵码、Devika...,“码农”要失业了吗?
3月12日,美国AI初创公司Cognition AI在X平台发布一条视频,宣布了首位完全自主的AI程序员 Devin 的诞生。第一位接近人类的 AI 程序员,究竟强在哪里?不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。Devin 不仅能自主学习新技术,自己改Bug,甚至还能训练和微调自己的AI模型,表现已然远超GPT-4等“顶流选手”。原创 2024-04-17 10:14:28 · 2012 阅读 · 0 评论 -
2024最火热的大模型技术方向:MoE,国产MoE大模型大爆发!
根据官方公布的数据, XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近,超过了DeepSeek-16B-MoE模型,与Mistral-7B、LLaMA2 34B等在同一个水平。而与另外两个模型不同的是,XVERSE-MoE-A4.2B 固定了2个专家,每次推理的时候必然激活,而剩余的6个专家则是根据推理输入进行路由选择,这样做是为了保证模型在基础通用能力上获得对应的领域性能。Mistral-7B×8-MoE 是一个稀疏的混合专家网络,是一个纯解码器模型。原创 2024-04-17 09:59:26 · 3051 阅读 · 0 评论 -
正值AI大模型繁忙期:Mistral再开源8×22B大模型,OpenAI发布「视觉版」GPT-4 Turbo,谷歌重磅发布Gemini 1.5 Pro,Meta确认开源大模型LLaMA 3
根据科技外媒The Information4月8日发布的报道,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量可能超过1400亿,而最大的LLaMA 2版本的参数量为700亿。同一天,OpenAI发布了 GPT-4 Turbo with Vision,这是最新的 GPT-4 Turbo 模型,具有视觉功能,可处理用户上传的照片、绘图和其他图像。4月10日,Mixtral-8×7B-MoE模型升级新版本,Mistral AI 开源了全新的Mixtral-8×22B-MoE大模型。原创 2024-04-17 09:44:09 · 1245 阅读 · 0 评论 -
马斯克旗下 xAI 推出首款多模态模型Grok-1.5V
4月13日,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。自2023年11月推出聊天机器人Grok以来,马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内,xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。原创 2024-04-17 09:37:32 · 919 阅读 · 0 评论 -
一份全面的大模型「幻觉」综述
,来自腾讯AI实验室和一些国内大学的研究团队,综述提出了LLM幻觉现象的分类法和评估基准,分析旨在减轻LLM幻觉的现有方法,并确定未来研究的潜在方向。将重点放在解决与数据相关的幻觉、与训练相关的幻觉和与推理相关的幻觉的方法上,每种方法都提供了量身定制的解决方案,以应对各自原因所固有的特定挑战。)从LLM幻觉的创新分类方法出发,深入探究了可能导致幻觉的因素,并对检测幻觉的方法和基准进行了概述。目前在LLM幻觉问题上已经有无数的研究,比如关于幻觉的检测、幻觉的评估基准分类、缓解幻觉的方法等。原创 2023-11-21 10:24:36 · 3706 阅读 · 0 评论