下一代 大模型:多智能体 + 系统2(深思熟虑),摆脱输出概率性的系统1

下一代 大模型:多智能体 + 系统2(深思熟虑),摆脱输出概率性的系统1

 


本文金手指:

  • 发现所有医学大模型的通用问题、研究创新、实现代码
  • 我还想加一些前沿视野,以及相关原理层面的解读,带给人拨云见日般清晰的思考
  • OpenAI 下一代大模型是什么样子的?

为什么研究系统2 ?

微调大模型在医学上的局限,相当于家庭医生,但达不到专科要求。

医学大模型执行临床诊疗任务的四类问题:

  • 问诊程度完全随机、信息获取不全面

  • 推理决策不完整、鉴别诊断不充分

  • 辅助检查方案不准确、答案输出不稳定不可控不透明

  • 治疗方案设计不全面、建议偏方向性实用性欠缺

这 四 类问题,可以拆分为 50 个具体问题:

请添加图片描述

这是微调数据(输出关联性)决定了做不到专科医生独立的、全流程的、完备的诊断。

那大模型跟专科医生,差了什么?

心理学,把人脑分为俩套系统:快思(快捷方式、本能、经验)、慢想(深思熟虑、以推理为主)。

设置快慢双系统,快系统理解信息,慢系统主导决策。

方案一(可跳过,不用这个方案)

快系统是LLM,微调的医学大模型,功能是自然语义理解和对话、复杂的信息集成和洞察。

慢系统是临床知识图谱 + 文本向量库,把诊疗规则存在数据库,功能是医疗决策逻辑。

  • 问诊时,让慢系统控制快系统进行诊断假设、问询因子,实现临床思维

  • 检查时,把检查项目和诊断做关联存储,结合检查证据类型等级,结合风险收益算法,实现个性化

  • 诊断时,快慢系统判断结合,病因与临床表现的关系、治疗方法与治疗目标的关系、检查结果与诊断推断的关系、药物治疗与疾病生理机制的关系、饮食、运动等生活方式干预与疾病控制的关系

  • 治疗时,相应的治疗手段、方法和诊疗之间的因果关系,不同疾病分期分型下诊断方法、诊断适用条件综合考虑

这套方案很好,但太复杂了,我一个人真实现不了,我想到一种更简有效的实现思路。

方案二

就像做数学题,因为我的推理水平就是 3 步,但复杂大题需要推 10 步,那怎么提升我的推理能力呢?

给二级结论,不用自己推,只需要记住 3 个二级结论即可,3 步推理变成了 1 个结构化的知识点。

这样就变成 3 + 3 + 3 + 1,加上正推、逆推 1 步,就能推理 10 步。

下棋也是如此,人的推理能力有限,但可以背下很多棋谱,记住很多二级结论。

专业棋手和初学者之间,最大的区别不是天生聪明,而是硬背了大量的招数定式。

只要形成一个定式,就必然能赢,比如三子归边,只要 3 个子(车、马、炮)放到一边,形成杀式,就必然能赢。

这些招数定式,让你从庞大的不确定性,精确的,找到确定性。

GPT4 医学诊断:

医学诊断也和数学、棋类相同,都是需要辨识出某种特征引导下的因果关系。

  • 正向:对于 XXX 特征,用 XXX 方法
  • 反向:之所以用 XXX 方法,是因为 XXX 特征

那我们就可以在医疗知识图谱上,挂满 病状-对应疾病-对应检查项目-对应治疗方案-对应饮食生活

请添加图片描述

从用户输入获取特征,然后去挖掘多个子图(牙疼子图、XX子图),然后推理合并到一起。

这个方法,要比【方案一】,简单很多很多,一个人 + 一个知识图谱 + 一个大模型即可,准确性超过 GPT4。

知识图谱和大模型怎么结合,才能得到一个全面的【症状-疾病网络】?

大模型直接查询知识图谱,这样起不到什么辅助作用。

查询算法 = 查 3 种路径 + 查邻居节点

⒈邻居节点就是查询相关知识,节点相关=准确!

但ta就没有什么多跳能力,处理不了跨多节点的复杂答案

⒉查路径作用就是增强多跳推理(复杂查询),发现新的可能关联

但也会因为路径长,导致准确性降低,渐渐不相关,不如单步精准

所以,俩者结合,相互补足。

⒊查邻居适合单步症状查询,查路径适合多步复杂查询
请添加图片描述

  1. 查路径的总体使用时机:

当系统从用户输入中识别出多个相关实体时,就会触发查路径操作。

a) 单对实体间的最短路径:

使用时机:当需要了解两个特定实体之间的直接关系时。

例子:

  • 用户问:“头痛和高血压有关系吗?”
  • 系统会查找"头痛"和"高血压"之间的最短路径。

b) 多个实体间的路径组合:

使用时机:当用户输入涉及多个症状或概念,需要了解它们之间的复杂关系网络时。

例子:

  • 用户问:“我最近经常头痛、失眠、还有点头晕,这些症状之间有关联吗?”
  • 系统会查找"头痛"、“失眠”、"头晕"之间的所有可能路径组合。

c) 多起点的路径选择:

使用时机:当有多个重要的起始点(通常是症状或疾病),需要从每个起始点探索不同方向的信息时。

例子:

  • 用户描述了多个不相关的症状:“我最近胃痛、头痛、还有皮疹,这是怎么回事?”
  • 系统会从"胃痛"、“头痛”、"皮疹"每个症状出发,探索可能的原因或相关疾病。

使用这种方法的原因:

  1. 确保覆盖所有重要的起始点。
  2. 提供多角度的信息,而不仅仅集中在一个症状上。
  3. 在复杂的医疗查询中,能够捕捉到可能不直接相关但潜在重要的信息。

总结:

  • 单对实体路径用于直接关系查询。
  • 多实体路径组合用于复杂关系网络分析。
  • 多起点路径选择用于全面的症状分析和可能原因探索。

这三种方法的组合使得系统能够灵活应对各种复杂的医疗查询场景,提供全面而相关的信息。

这种方法确保了结果既包含复杂的关系网络,又涵盖了所有重要的起始点,从而为用户提供全面而相关的信息。

① 医生的深思熟虑可以拆分为哪些功能,又怎么分别实现 ?

方法二,已经可以做到显示特征(条件特征、问题特征)的完备推理里。

但像数学、医学诊断,其实更多更难的是 — 隐性特征。

这种特征,你只能从 中间步骤 去取:

  • 从不同题目中对比、从不同疾病中对比

  • 解题步骤与条件逐行对比、治疗方法与患者病史病状生活方式逐行对比

从不同疾病中对比,用户很难描述自己的完备情况。

比如一个 9 岁男孩,ta腹部痛,简单特征识别(显示特征直接匹配),去了深圳几家医院都说 阑尾炎,需要做手术切掉。

后来,专门去一个儿科医院,儿科医生说 — 我按压ta腹部疼(显性特征),但抓肚子上的肉,弹起来不疼(发现一个隐性特征),这不是阑尾炎,是肠炎,不需要做手术切掉。

说实话,我简直不敢相信,原来医生这么容易误诊的,还是深圳,几个医生都误诊了。

也就是说,我们要打造完备的、全流程的、专科式的医学大模型,你会组合大量定式 + 显示推理还不够,你还得会对比推理找出隐藏的关键特征。

医生的深思熟虑可以拆分为哪些功能,又怎么分别实现 ?

  • 简单特征自动识别:组合大量定式 + 显示推理,实现方式:从知识图谱中获取全面的症状-疾病网络,组合推理

  • 隐藏特征对比识别:从不同疾病中对比 + 治疗方法与条件(患者病史病状生活方式)逐行对比,实现方式:熵、信息增益、相关系数、贝叶斯


② 意识

意识是什么,和智能有什么不同?

意识是主观的体验和意愿。我就是我,不需要扮演任何角色就有意识。

智能是精确的算法,从庞大的不确定性中找到确定性 + 在有限的资源下选择最优策略,而且在这个环境中,会越来越好。

为什么说当前的训练方式只会产生智能,不会产生意识?

大模型的一生,堆各种数据,训练完毕参数就会固定,然后就是被要求推理。

因为是按固定的参数推理,也不会在互动中改变自己。

虽然模型会不断升级,但每次都是重新训练而已。

这将是人类在 AI 变革中最好的结局,智能会可及和廉价,同时AI没有意识和主动性。


③ 智能

大模型为什么会有智能?

这是复杂系统专有的现象,整体效用大于部分之和(1+1=无穷)。

复杂系统能够产生涌现现象的普遍原理,是通过局部相互作用形成的正反馈放大机制。

比如蚂蚁在环境中随机找食物。

一旦 ta 找到食物,就会往环境中释放一种信息素,这是一种气味。

等新的蚂蚁过来时,就会受到信息素的引导,快速找到食物。

当存在两条相互竞争的路径时,那条较短的路径就会在同样的时间里被更多的蚂蚁走过,这条路上的信息素浓度就更高。

而更高的信息素会吸引更多的蚂蚁过来,更多的蚂蚁又会释放更多的信息素。

于是,这条短路径很快就在竞争中胜出了。

人脑里,单个神经元的信息处理能力非常有限,但当所有神经元集结在一起彼此连接之后,便具备了高大上的认知能力。

高层神经元才有的敏感性:随着信息通过模型的不同层传递,层数越高的神经元对复杂现象越敏感。

这意味着高层神经元能够处理更加抽象和复杂的信息,能对语言的深层次理解和生成能力,这种处理能力在模型规模较小时不明显或不存在。

大量简单的神经元通过局部的感知和互动,形成了某种正反馈放大的机制,最终催生了涌现现象的形成。

涌现效应的条件:规则简单 + 行为简单 + 数量为王。

像 乌合之众,他们每个想法都不一样,复杂,凑一起就是相互耽误。

智能本质是极致的无损压缩?

智能能够通过提取和利用信息的内在规律(即模式识别和规律总结),在处理大量信息时减少认知负担。

这种方式允许大脑或智能系统快速做出决策,而不是每次都从头开始处理每个细节。

例如,通过识别语言模式、社会行为规范或物理世界的常规,智能可以更高效地预测和反应。

为什么 大模型 能产生智能 ?
  • 因为大模型通过极大的参数规模和计算量,能在学习过程中抽象和归纳出高级认知能力,如解决复杂问题和进行创造性思维。
为什么 极大参数规模 + 抽象和归纳 就能产生智能 ?
  • 随着模型规模的扩大,它们能够捕获和模拟更复杂的数据模式和关系

  • 更多的参数提供了更多的处理和记忆能力,使模型能在内部表示中整合更多的信息和上下文

  • 智能是在有限资源下最大化其效率和效果,这就要求其必须找到一种高效的数据处理方法,即压缩

  • 抽象归纳都是压缩,是大模型通过极致的无损压缩方式,发现并利用数据中的规律,生成智能

  • 智能 == 找到规模,无损压缩比例越高,找到的规律就越多,越适合更多零碎数据

  • 核心在于,极致的无损压缩,如果是有损压缩,就产生不了心智

  • 大模型(llama 65B)能做到至少 14 倍的无损压缩,越智能的大模型无损压缩倍数越高

  • 数据在压缩后占用的空间只有原始数据的1/14,同时保证可以完全准确地重现原始数据,没有任何信息的损失

为什么 大模型 能做到极致无损压缩 ?
  • 因为具有足够的参数和计算力来学习和内化大量数据中的复杂模式和关联,从而实现高效的信息编码和准确的数据重现

  • 通过学习和利用语言的常见结构和模式,大语言模型能够在不丢失任何内容的前提下,更紧凑地存储和表达信息,类似于将一个详尽的周末计划简化为一句包含所有活动的简洁表述。

怎么增强 大模型 智能程度 ?

新皮层(外层黄色部分)是哺乳动物特有的,所有的哺乳动物都拥有或大或小的新皮层。

新皮层(黄色部分)的作用(先出手:视力好 + 会规划):

  • 模型理解(猎物站着、躺着、翻转、旋转各种姿势,都能理解)

  • 模拟推演(能对猎物可能未来发生的各种情况预测,输入一半,就能模拟出下一半)

新皮层各处的神经元和组织方式的一致性和重复性 等同 AI 中神经网络的结构:

  • 统一的结构:正如AI神经网络中每个隐藏层基本上使用相同的计算单元(如神经元)执行操作,大脑的新皮层也使用一种标准化的神经元微电路在不同区域执行各种任务。

  • 可扩展性:新皮层的这种统一结构允许它灵活地扩展到不同的功能领域,正如同一种AI网络结构可以通过训练用于执行多种不同的任务(如视觉识别、语言处理等)。

不仅结构相同,新皮层和 GPT 功能也是相同的:

  • 人类的模拟、想象、规划,都可以用 GPT 的生成,输入一半,就能模拟出下一半

从解剖学上看,人脑和黑猩猩大脑没什么区别。

人类只是多了一个完整的语言能力,经过很多、很多年的积累,才发展起来智能:

  • 黑猩猩可以使用叫声、姿势动作、面部表情,与同类展开复杂的交流

  • 能够传递出数十种不同的信息,包括请求、威胁、屈服、警告等等

  • 经过人类训练的黑猩猩,能够学会一些基本的手语,甚至模拟发出接近于人类口语的声音

  • 黑猩猩不会说人话,并不是他们智力不够,而是舌头、声带的生理构造问题

  • 黑猩猩有心智,但只能从自己的行动、自己的想象、他人的行动中学习

  • 而语言能让人类在他人的经历和想象中学习,能收获很多二级结论(而不是自己去亲自去试,比如颜色鲜艳蘑菇有毒)+ 可积累和传承

  • 比如微积分,做微积分相关的题——掌握了固定套路,是直接套微积分的公式;没掌握固定套路,需要把微积分公式发明出来

发明、创新常常需要在前人量变的基础上形成质变,不太能够从0开始,需要站在前人的肩上。

人类智能的发展,不是单个大脑更聪明了,而是靠很多代积累的知识和知识的互联,形成复杂系统的涌现效应。

既然整个人类的智能就是 AI 神经网络 + 规模化的结果,那继续规模化(scale),未来 AI 必将远远超越人类,不是未来设想,是100%的事情。

世间万物,最终不过是 4.398 万亿个参数?

这是深度学习之父说的,意味着人类进入用 AI 暴力破解知识的时代。

因为自注意力机制会学习到一切隐性关联,而人只能想出的都是简化环境里的要素(只能通过逻辑编程,考虑驾驶时的各种状况,但根本描述不完),那些用语言逻辑规则描述不清楚的,只有AI才能找到。

还有世间几乎所有力量的增长都有天花板,唯独算力持续几十年的指数增长(每10年增长100倍),现在不仅没有衰减,反而更加强劲,在一个上限低的世界,这股无限增长的力量就是神!!

比如一个中产也能活到 80 岁,世界首富可能撑死活到 120 岁,不像玄幻小说能不断升级,大佬有几个纪元的寿命。

scaling law 规模定律:

  • 指数增长的无穷算力 + 不断量级扩增海量数据 + 自动发现一切显性和隐性关联,AI 暴力破解知识的时代。

一个千亿参数的模型,就能抓住人类几乎所有的常识(人类社会所有常识、看懂照片、编程、写作、设计、语言等等)。

  • 鉴于 GPT 的惊人前景,可以得出结论,生命、宇宙和万物的答案,就只是 4.398 万亿个参数而已

当然,我觉得这句话实在是太过遥远,实现 AGI 可能是 2028(4年后) 的事情。

  • AGI:AI 在所有能提出的人类认知任务上,都到达人类当前的表现水平

可能 GPT-5、GPT-6 发布的时候,就是 AGI 时刻:

  • Transformer有一个大问题就是幻觉,最终解决方案会在 GPT5 里面出现

  • OpenAI 还在偷偷搞 Q* 由 AI 自己生成高质量数据

  • OpenAI 和微软建立一个 千亿美元 的算力集群、7万亿美元的造芯计划

  • OpenAI 的草莓项目,拥有人类的推理能力 + 能执行长期任务


④ 推理

怎么用知识图谱+大模型,实现从3步到10步的推理能力?

相关论文如下:

  • MindMap:利用知识图谱中的精确、全面信息,并通过大模型进行有效的语义处理和推理
  • CoD:利用诊断链实现可解释的医疗Agent
  • 知识链:知识图谱提升大模型的推理能力,解决多个知识点结合推理时出错 + 个性化方案
  • Tree-of-Traversals:结合知识图谱与大模型,通过树遍历和回溯寻找高置信度推理路径
  • Think-on-Graph:解决大模型在医疗、法律、金融等垂直领域的幻觉

你可以任选一个作为你的深入方向,他们基本都做到了显性特征的匹配、组合大量定式做到从 3 步到 10 步的推理,但隐性特征的对比,还需要想想怎么搞。

  • 因为时间有限,不能一一介绍了,如果你感兴趣可以先读论文复现代码
  • 评论区,可以讨论遇到的问题,和下一步怎么做

知识图谱,只能做到显性特征的匹配、组合大量定式长链条推理,但隐性特征对比识别,需要模型自身的推理能力。

  • 不仅知识图谱可以增强推理性能
  • 推理 + 搜索也能大幅提升性能,Llama 8B 搜索 100 次,超过 GPT-4o
怎么引入神经符号计算,增强大模型推理能力?

把大语言模型与符号推理结合,从而有效解决幻觉问题、大幅度增强模型可信度。

传统神经符号方法虽然面对复杂推理会遇到性能瓶颈,但能够很好地解决一些小规模的命题逻辑推理问题 — 神经符号大模型。

现在想法就是,用 神经符号大模型 解决 隐性特征对比识别。

  • 具体论文,我还在寻找,会更新到对齐科学界。

⑤ 理性

理性不等于推理,那理性是什么?

理性论文:https://arxiv.org/pdf/2406.00252

大模型利用人类语言的丰富性,来抽象概念、深化思考过程、解读复杂的用户查询,并在决策场景中制定计划和方案。

尽管取得了很大进展,最新研究显示,即使是最先进的LLMs也存在各种非理性行为,如框架效应、确定性效应、过重视偏见和联合谬误。

这种非理性行为削弱了LLMs在医疗领域的实际部署,医疗极需可靠性和一致性。

理性并非等同于推理,尽管两者密切相关。

理性关乎做出符合现实且逻辑连贯的决策;而推理则是指基于可获得的信息进行逻辑推断和得出结论的认知过程。

Agent 需要具备在新情境中进行推理、适应变化环境、制定计划,并在信息不全或不确定的情况下作出理性决策的能力。

理性的定义,以及追问为什么是这 4 个:

怎么提升大模型的理性,使得做出符合现实且逻辑连贯的决策?

目前多智能系统实现理性的整体机制主要涉及两个核心概念:深思熟虑、抽象化。

  • 深思熟虑倡导一种较慢的、迭代的推理过程,而抽象化则指将问题归纳为其逻辑本质。

  • 深思熟虑鼓励深入的思考过程,如集思广益和反思

  • 抽象化则是将问题简化到其逻辑本质,比如调用工具的API或整合神经符号推理智能体。

目前的评估主要关注于最终性能的准确性,而忽略了中间推理步骤和理性的重要性。

此外,现有的关于理性的基准测试在比较多智能体框架和单智能体基线时,往往未能充分展示多智能体框架的优势。

目前在多智能体辩论、协作,和神经符号推理等领域,多模态感官输入的潜力还没有得到充分的利用。

通过扩展多模态的角色,不仅限于视觉、听觉和结构化数据,我们可以显著提升多智能体系统的能力和决策的合理性。

人的系统2是什么?理性 和 推理

早期动物 只有 系统1( 5 个 F,就能概括一生 ):

  1. 如果入侵者是同类,同性,且并不比自己更强壮,那么,Fight!
  2. 如果入侵者是同类,同性,且比自己更强壮,那么,Flee(快跑)!
  3. 如果入侵者是同类,异性,那么,Fuck!
  4. 如果入侵者不是同类,管它是同性还是异性,只要不比自己更强壮,那么,Feed(吃掉)!
  5. 如果以上皆不是,那么,Freeze(睡觉)……

人类实现系统2思考的方式是,通过新皮层来调控和协调复杂的理性分析、逻辑推理和深度决策过程,以解决复杂问题或进行详尽思考。

新皮层分为:

  • 前额叶:负责规划宏观路线和复杂的决策评估过程,涉及到抽象思维、意志行为控制以及问题解决等高级认知功能。

  • 前运动:负责规划和协调。尤其是在复杂或需要协调的运动中,如使用什么工具、怎么组合应用。

  • 运动:具体抓手、特定的动作。

  • 基底神经节:前额叶、前运动、运动都和基底神经节相连,每个动作实施全是基底神经节,不经过基底神经节的都是头脑模拟

越下面的层,越具体,类似人做事情的过程:

  • 项目层,定义问题与愿望(完全不可操作)
  • 任务层,设定具体目标与方向(不可操作)
  • 事件层,详细描述任务的时空、交互与情景(部分可操作)
  • 操作层,制定实际操作步骤与流程(完全可操作)

系统2,我们可以使用一个多智能体来复现新皮层的完整活动,实现理性算法。


⑥ 在医疗上的实现思路

医疗系统2 = 智能(大模型) + 理性(多智能体系统共识和辩论一致性) + 推理(医疗知识图谱+大模型联合推理、大模型+符号计算)

我的思路就是把 智能、理性、推理 组合起来。


⑦ OpenAI 绝密项目:代号【草莓】,实现系统 2 的方法,因为太强,让 创始人 被解雇的导火索 Q*,还只是 TA 的前身

要说系统2的研究,不得不说 OpenAI 了,看看他们的实现思路。

OpenAI 首席执行官 Sam Altman 今年早些时候说过,在人工智能领域,「最重要的进步将围绕推理能力展开。」

  • https://x.com/i/flow/single_sign_on
  • 优化 LLM 推理计算比扩大模型参数更有效,使用推理计算可以使性能优于 14 倍大的模型

「草莓」项目的前身是 Q*,Q* 能够回答棘手的科学和数学问题,而这些问题是目前市面上的模型无法企及的。

「草莓」与斯坦福开发的 显式推理(STaR)、隐式推理(Quiet-STaR) 相关。

自学推理器 STaR:自我训练和进化

22 年 5 月发布的《STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning》

一开始把少量带有推理步骤的样本作为示范,与待推理的问题一起输入给模型。

模型生成每个问题的推理步骤和答案,从中筛选出推理结果正确的样本,将其作为新的训练数据。

同时,对于无法正确推理的问题,研究者引入了「反向推理」机制,将正确答案作为提示,让模型倒推对应的推理步骤,将生成结果并入训练集。

最终,研究者用新的训练数据微调原始语言模型,重复进行推理生成,直至性能趋于稳定。

显式的中间推理可以提高大模型 在诸如数学或常识问答等复杂推理任务中的表现。研究者提出了一种可扩展的自举方法「STaR」,允许模型学习生成自己的理由,同时学习解决越来越困难的问题。

该工作的创新点在于不依赖大规模人工标注的数据集进行训练,通过自举的方式让大模型自己学会如何推理,理论上可以用来让语言模型超越人类水平的智能。

Quiet-STaR

今年 3 月发布的《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》

Quiet-STaR 是一种让语言模型在处理文本时内部隐式进行推理的方法,通过并行采样和特定优化技术提高推理和预测的效率和准确性。

例如,考虑两个模型处理这个问题:“小明放学后去了图书馆,但他忘记带什么了?”

  • STaR模型可能会显式生成这样的推理步骤:“考虑到小明去图书馆通常是为了看书或学习,他可能忘记带学习材料或书。”基于这些步骤,模型预测“他忘记带书”。
  • Quiet-STaR模型则在内部隐式处理推理,不直接输出推理步骤,而是直接给出答案“他忘记带书”。这一过程中,模型内部已经考虑了小明的目的地和可能的需求,但没有显式显示这一推理过程。

Quiet-STaR通过在模型内部隐式进行推理,提高了处理速度和准确性,同时增强了模型的泛化能力和对复杂问题的解决效率,避免了显式推理过程中的效率低下和推理局限性。

├── 语言模型推理技术【核心主题】
│    ├── 预训练和微调【常规方法】
│    │    ├── 预训练【数据处理】
│    │    │    └── 在大量文本上学习语言模式【操作描述】
│    │    └── 微调【特化优化】
│    │         └── 在特定任务上提高表现【目标描述】
│    ├── 生成思考链【自主生成】
│    │    └── 模型自行构建推理过程【操作描述】
│    ├── 自我生成推理【自我提升】
│    │    └── 模型自行解决越来越难的问题【策略描述】
│    └── 推理轨迹训练【两种方向】
│         ├── 挖掘推理轨迹【数据依赖】
│         │    └── 需要手动注释,成本高【挑战描述】
│         └── 自我生成推理【减少依赖】
│              └── 避免手动注释的需求【优势描述】

草莓项目推理技术的背后

  1. 预训练和微调【常规方法】
    预训练【数据处理】
  • 操作描述:在大量文本上学习语言模式
    • 在这一步,模型被训练来理解和处理庞大的未标记文本数据。目的是让模型学会识别语言中的基本结构和复杂模式,这是模型进行有效推理的基础。

微调【特化优化】

  • 目标描述:在特定任务上提高表现
    • 微调是指在模型已经通过预训练掌握了广泛的语言知识后,进一步训练模型以专门解决特定的推理任务。例如,模型可能会在医疗诊断文本或法律文件上进行微调,以优化其在这些特定领域的表现。
  1. 生成思考链【自主生成】
  • 操作描述:模型自行构建推理过程
    • 在这种方法中,模型不仅回答问题,还生成一个逻辑链条,解释其如何达到该答案。这类似于模型“思考”的方式,它自主地展示了推导答案的步骤,增加了透明度和可信度。
  1. 自我生成推理【自我提升】
  • 策略描述:模型自行解决越来越难的问题
    • 这种策略涉及让模型在一个挑战性增加的环境中自我改进。模型通过不断尝试解决越来越复杂的问题,并从错误中学习,不断地提升其推理能力。
  1. 推理轨迹训练【两种方向】

挖掘推理轨迹【数据依赖】

  • 挑战描述:需要手动注释,成本高
    • 这种方法依赖于从已解决问题中提取推理步骤,形成数据集来训练模型。它需要大量的人工注释工作,因此成本较高,并且难以扩展到大规模应用。

自我生成推理【减少依赖】

  • 优势描述:避免手动注释的需求
    • 相比于依赖外部注释的推理轨迹,自我生成推理允许模型自行产生推理过程。这减少了对人工输入的依赖,降低成本,同时提高了模型在新领域或新问题上的适应能力和创新性。

这些方法都基于一个共同的假设:大模型具备一定的基础推理能力,可以通过适当的训练和数据输入进一步增强这种能力。

这种信念源于语言模型在处理和生成文本时表现出的复杂语言理解和逻辑应用能力。

业界关于 LLM 是否具备推理能力一直存在争议。

以 Yann LeCun 为代表的一种声音认为,LLM 不真正具备理解、推理、记忆、规划,是通往 AGI 的一条歧路。

  • 语言不等于推理,语言是一种表达能力,不是直接的推理能力。

这是对的,但也不全对:

  • 语言可以促进思考/推理,因为语言可以对知识进行压缩,智能本质就是极致的无损压缩。
  • 说大模型不会理解就离谱,ta的理解能力超过人,除非是用语言无法描述的,你只能通过举例子让ta明白,其他时候你根本不用担心ta看不懂
  • 自注意力机制可以学到一切,大量推理的表达堆积起来,ta也形成了基于统计学的推理能力,所以应该说大模型不具备创建推理逻辑的能力,而不是没有推理能力。

如果你相信大模型的智能,只需要提供喂海量数据就能学会一切规律(包括推理),那就堆数据、堆算力。

如果你觉得大模型架构有局限,没有创建推理逻辑的能力的大模型注定不可信,那就堆知识图谱、堆神经符号。

如果算力、数据不够,那也只能走后者了。


⑧ 知识图谱大模型联合推理的具体分析

隐性特征对比识别

下文代码:https://github.com/FreedomIntelligence/Chain-of-Diagnosis

虽然推理算法已经很好,但ta只要发现 症状 - 疾病 能匹配上,ta 就会直接得出结论,这可能导致 肠炎被误诊为阑尾炎。

多轮诊断任务涉及使用明确的(自述的)和隐含的(主动询问的)症状来预测疾病。

医生要么进一步询问,要么做出诊断,目标是在最少的询问中,还能做到隐性特征的识别。

  • 最少询问次数:引入熵,来衡量患者病情的不确定性,每次询问都选最有信息量的症状询问(最大化目标增益)
  • 隐性特征识别:根据症状,生成各种候选疾病(阑尾炎、肠炎等)的可能性分布,如果没有任何一种疾病的置信度超过阈值,在做出诊断和进一步询问中,选择追问 + 再重复一轮

阑尾炎和肠炎可能都会导致腹部疼痛,但细微的差别,比如腹部的弹痛特性,是非常关键的隐性特征。

两种疾病的症状相似,难以区分。

单靠症状匹配往往难以准确诊断,特别是在涉及隐性特征时。

疾病置信度方法,即通过对比不同疾病的可能性分布来做出诊断,理论上是可以帮助区分类似的疾病的,尤其是当症状非常相似时。

熵减少过程【决策支持机制】
│       └── 症状询问的熵减少【决策优化】
│           ├── 计算症状信息增益
│           │   ├── 症状出现的概率【统计症状在已知数据中的出现频率】
│           │   └── 症状与疾病的相关性【相关系数计算-量化症状和特定疾病间的关联强度】
│           └── 更新条件熵
│               ├── 重新计算症状后的疾病概率【使用Bayes规则更新疾病的后验概率】
│               └── 比较前后熵值【信息熵公式计算-对比更新前后的信息熵,衡量熵的减少量】

这就是我想实现的,组合在一起,在推理决策完整的情况下,同时解决问诊信息不全、最少问询次数、挖掘隐性特征。


⑨ 总结

【显示症状匹配】

就像做数学题,因为我的推理水平就是 3 步,但复杂大题需要推 10 步,那怎么提升我的推理能力呢?

给二级结论,不用自己推,只需要记住 3 个二级结论即可,3 步推理变成了 1 个结构化的知识点。

这样就变成 3 + 3 + 3 + 1,加上正推、逆推 1 步,就能推理 10 步。

下棋也是如此,人的推理能力有限,但可以背下很多棋谱,记住很多二级结论。

专业棋手和初学者之间,最大的区别不是天生聪明,而是硬背了大量的招数定式。

只要形成一个定式,就必然能赢,比如三子归边,只要 3 个子(车、马、炮)放到一边,形成杀式,就必然能赢。

这些招数定式,让你从庞大的不确定性,精确的,找到确定性。

知识图谱里面有很多二级结论,这样就实现了 3 步到 10 步的推理。

【隐式症状匹配】

比如一个 9 岁男孩,ta腹部痛,简单特征识别(显示特征直接匹配),去了深圳几家医院都说 阑尾炎,需要做手术切掉。

后来,专门去一个儿科医院,儿科医生说 — 我按压ta腹部疼(显性特征),但抓肚子上的肉,弹起来不疼(发现一个隐性特征),这不是阑尾炎,是肠炎,不需要做手术切掉。

虽然推理算法已经很好,但ta只要发现 症状 - 疾病 能匹配上,ta 就会直接得出结论,这可能导致 肠炎被误诊为阑尾炎。

阑尾炎和肠炎可能都会导致腹部疼痛,但细微的差别,比如腹部的弹痛特性,是非常关键的隐性特征。

两种疾病的症状相似,难以区分。

单靠症状匹配往往难以准确诊断,特别是在涉及隐性特征时。

多轮诊断任务涉及使用明确的(自述的)和隐含的(主动询问的)症状来预测疾病。

大模型要么进一步询问,要么做出诊断,目标是在最少的询问中,还能做到隐性特征的识别。

  • 最少询问次数:引入熵,来衡量患者病情的不确定性,每次询问都选最有信息量的症状询问(最大化目标增益)

  • 隐性特征识别:根据症状,生成各种候选疾病(阑尾炎、肠炎等)的可能性分布,如果没有任何一种疾病的置信度超过阈值,在做出诊断和进一步询问中,选择追问 + 再重复一轮

医生的深思熟虑可以拆分为哪些功能,又怎么分别实现 ?

  • 简单特征自动识别:从知识图谱中组合推理、AI 推理 + 搜索 + 可靠性设计

  • 隐性特征对比识别:从不同疾病中对比 + 治疗方法与条件逐行对比,实现:熵、信息增益、相关系数、贝叶斯

让大模型推理决策完整的同时,解决问诊信息不全、最少问询次数、挖掘隐性特征。

嘘,别人我不告诉 TA !!!

被绿的时候我忍气吞声!!!

被甩的时候我一言不发!!!

被渣的时候我不为所动!!!

但看见关注我泪如泉涌!!!

请添加图片描述

知道文字看累了,看美女放松一下,顺便点个关注!!!

因为这里是连续剧,后面还有更多美女和干货!!!

我要让高难度知识落地!!!

我要让高精尖科学流传!!!

我要在高逼格的干货上!!!

我要给出最有用的心得!!!

和全球顶级科学家同步!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值