智能时代的挑战与未来

【在人工智能技术重塑商业逻辑的同时,其对社会结构、伦理边界甚至人类认知的影响也引发广泛讨论。如何在技术狂飙中保持理性,让AI真正服务于人类福祉?北邮人机交互与认知工程实验室主任刘伟先生分享了他的看法。】

在讨论人工智能的系统方案时,我认为需要从五个方面进行全面阐述。首先,从概述入手,明确人工智能系统的整体框架和目标。其次,介绍普兰提尔(Palantrie)这一概念或技术,作为系统方案的重要组成部分。第三,从底层技术角度分析现代智能系统的瓶颈,探讨当前面临的挑战和限制。第四,聚焦多尺度的态势感知,强调其在人工智能系统中的关键作用,以及如何通过多维度数据融合提升智能决策能力。这五个方面共同构成了人工智能系统方案的完整视角。

刚才我们讨论了硬件的成分,现在来看看 Deepseek、ChatGPT 以及前几天发布的Grok3。前段时间我做了一个采访,了解到 Deepseek 可以说是小力出奇迹。它们都是基于 transformer 架构,Deepseek 有几个显著特点:采用了混合专家技术,号称满血状态下有 671B,但实际计算时仅为 37B,资源占用大幅降低,速度也大幅提升。不过,这种方式也存在缺点,那就是精度有所下降。第二,Deepseek 在前期对一些信息进行了压缩;第三,相较于传统的暴力计算方式,它能够实现更多、更长的预测;第四,通过双管齐下的信息交流模式,节省了时间成本。第五,它的强化学习方式与传统强化学习有所不同,存在相对强化,这意味着对局部最优和全局最优进行了调整。我们提出多尺度的强化学习,正是受其启发。在不同尺度,即小尺度、中尺度和高尺度的情况下,进行弹性切换,以此提升整体性能和效果。

总体而言,之前DeepSeek 的生态建设面临很大困难。它采用的是 Cuta 的指令集,如果能够成功破解,便可以在小范围内改善当前生态,甚至重建一个全新的生态。在计算精度方面,DeepSeek 采用 LP 混合精度,即浮点计算 8 和 16 混合,而 GPT 和 Grok 采用的是 32 精度,相对来说,GPT 和 Grok 的精度更高。此外,DeepSeek 处于半开源状态,大家都知道,它最底层的框架并未开放。这就是 DeepSeek 目前的整体情况。

在这里需要特别指出,从最严格的标准来看,所有基于该架构的大模型都存在可靠性问题。追根溯源,这类模型源于2017年《Attention is all your need》的那篇论文。前段时间,NVIDIA 的老总黄仁勋邀请了论文的 8 位作者中的 7 位聚餐交流,席间这 7 位作者一致认为,这个体系和框架存在极大的不完善之处 ,这也从侧面反映出基于此架构的大模型并不可靠。

在这个被指出不完善的基座上,却诞生了众多大模型,这不禁让人好奇,它为什么不完善呢?其实,20 年前纽约大学计算机系系主任马库斯写过一本书,可能现在大家不太关注。3 年前,我们受委托在机械工业出版社出版了该书的译本 ——《代数大脑:揭秘智能背后的逻辑》。这本书里明确提到,在 Transformer 架构的多内层神经网络系统中,基本函数由线性函数和激活函数这两个函数构成,它们形成了一个非线性复合函数。在反向传播过程中,多内层的 Token 权重分配无法解释,呈现黑盒状态,这或许就是 Transformer 架构不完善的原因。

这意味着,只要采用这种架构的多模态大模型,必然会出现机器错误,也就是我们常说的机器幻觉,即模型会一本正经地输出错误信息,只是无法预测这种情况何时发生,这是第一点。第二点,现任 DeepMind 首席的 Hassabis 毕业于剑桥大学计算机系,同时也是 AlphaGo Zero的负责人。他指出,大模型会出现机器欺骗现象。究其原因,由于模型所接收的人类提供的 Token 中,本身就包含真实和虚假信息,模型在学习过程中一并吸收。当它实时接触大量信息源时,就容易引发机器幻觉和机器欺骗。五角大楼和海军等发布了诸多文件,强调在军事领域应用大模型时,必须要严格审查。从这可以看出,在一些重要领域,对大模型的使用十分谨慎。

另外,在一些特定领域,对于大模型的使用也有严格考量。在经过特定训练后,大模型在图像识别等特定方面,效果还是不错的,并非完全无用。不过,在国防、安全以及精密工业等关键领域,仍需谨慎使用大模型,就如同医药使用需要严格把控一样,这就是目前大模型的应用现状。

总体而言,大模型的极限在一定程度上反映了当前 AI 的极限。从数据层面来看,大模型依赖大数据、大样本,而人类学习往往基于小数据、小样本。

在推理方面,存在一个普遍误区,不仅我们有误解,美国人也同样如此。他们将智能单纯等同于计算和逻辑,这是错误的认知。真正的智能,除了计算和逻辑,还包含非计算、非逻辑部分。需要注意的是,数学并非纯粹的逻辑,数学是基于公理的逻辑,是有前提条件的。目前所有大模型主要依靠统计、概率等数学规则运行,这就导致在推理认知上出现了偏差。

以奥特曼提出的未来智能五个发展阶段为例:

第一阶段是能够实现交互;

第二阶段是能够进行推理,但在这一阶段就暴露出了问题;

第三阶段是能够实现调用;

第四阶段是能够进行创新;

第五阶段是能够完成组织。

在表征方面,人类的表征极为灵活,常说的 “一花一世界,一树一菩提” 就体现了人类能够将万事万物相互关联。与之对比,AI 的表征则显得较为死板,缺乏人类表征所具备的灵活性,难以实现如此广泛和灵活的关联。

智能的实现不能仅仅依靠语言,思维同样占据着重要地位。人类有许多只可意会、不可言传的思维内容,这些内容是智能的重要组成部分,而这恰恰是当前 AI 所欠缺的。

价值和事实是不同的,这是一个哲学层面的问题。目前,我们所有的任务规划基本都是基于事实进行的,并没有涉及到价值层面的规划。然而在实际作战中,常常会出现 “枪声一响,所有作战计划都要重新改写” 的情况,这表明事实性的变化速度远远比不上价值性的变化速度,价值因素在实际作战中有着关键影响。

以上就是关于智能及 AI 的五个特点分析。

大模型在某些情况下可能会干扰人类的决策,主要原因可以从以下几个方面分析:

第一,信息准确率问题。大模型依赖于数据源的质量,但在实际应用中,很难获取完全完备且干净的数据,这可能导致计算结果出现偏差。

第二,缺乏可解释性。大模型通常被视为“黑盒”,其决策过程缺乏透明性,用户难以理解其内在逻辑,从而降低了信任度。

第三,迎合用户偏好。大模型可能会根据用户的历史行为或偏好生成结果,这可能导致信息茧房效应,限制了用户的视野。

第四,偏差与歧视。由于训练数据可能存在偏见,大模型可能会继承甚至放大这些偏见,导致不公平的决策结果。

第五,过度依赖和虚假的自信。用户可能过度依赖大模型的结果,而忽视其局限性,甚至产生盲目的自信,从而影响判断。

第六,价值观冲突。大模型的输出可能与用户的价值观或社会伦理产生冲突,引发争议或不适。

第七,动态环境适应不足。大模型在面对快速变化的环境时,可能无法及时调整,导致决策滞后或失误。

第八,情感操作。大模型可能通过情感分析或生成内容影响用户情绪,进而干扰其决策。

尽管大模型在许多场景下能够提供帮助,但在特定场合下,上述问题可能导致其干扰人类决策。因此,在使用大模型时,需要保持警惕,结合人类判断,避免过度依赖。

在大模型驱动的智能时代,人、机、环境三者协同的核心目标是实现安全、效率和交互的舒适性。人类擅长谋划和算计,但在计算能力上较弱,而这正是机器的优势。构建一个生态系统的关键在于融合主观与客观,真正的智能不仅包含逻辑与数据,还需要创造力与想象力。这种混合特性使得智能系统的构建超越了传统科学的范畴,成为一项复杂而富有挑战的任务。

我们对智能的理解可能存在一些偏差。系统智能有两个经典案例:一个是美军的陆军指控系统,代号“深绿”,这是目前指控类项目中最干净、架构最漂亮的项目之一;另一个是普兰提尔。“深绿”从1998年启动,到2012年转入地下,其系统包含三大模块:水晶球、闪电战和指挥员助手。与传统的专家系统不同,专家系统通常基于规则,只有计算而没有谋划能力,而“深绿”则更注重智能的全面性。

我们反对单纯的类脑研究,因为即使神经元数量再多,也无法完全模拟人类的智能。类脑研究存在局限性,只有将智能与外部环境结合,才能真正发挥作用。以“水晶球”为例,这是一个态势感知系统,其背后的公司业绩发展迅速,估值甚至达到2600亿。该系统有两个重要事件:一是被质疑为旁氏骗局,二是辅助美国中央情报局抓住了本·拉登。这两件事使其声名大噪。有人推测,马斯克在美国反腐行动中可能也使用了类似的系统。

普兰提尔的核心包含三个部分,其中最重要的是“歌坛系统”和“大都会模块”。最初,该系统主要基于大数据处理,类似于军事领域的大数据系统。最近两三年,普兰提尔引入了大模型技术,将数据分析与大模型结合,构建了更智能的处理架构,显著提升了系统的能力。

普兰提尔在金融领域主要用于风险管理、追溯以及犯罪预防等任务。其核心是人机共生,本质上是一个软件系统。普兰提尔并非完全自主的产品,而是需要与有经验的军人和金融工作者结合,才能发挥最佳效果。需要注意的是,“人机共生”这一概念本身存在争议,且其架构已经不再局限于传统追溯模式,而是特别强调了系统设计的根源。德国人在系统设计上非常注重从根源出发,这也是普兰提尔成功的关键之一。

首先,回顾一下“本体”的概念,本体是对事物本质的定义,通常在图谱构建中用于描述实体与数据之间的映射关系。这也是我们目前无法做出类似普兰提尔产品的主要原因。普兰提尔之所以成功,是因为它从根源上成长,像从树苗开始培养一样,逐步构建动态的实体与数据映射关系。然而,目前我们看到的大多数项目都未能达到这种程度,这也是为什么类似产品在市场上几乎不存在的原因。普兰提尔的模型架构遵循从数据到关键技术再到分析的流程,其核心包括基础模型、算法和管理模块,整体结构简洁高效。为了提升用户体验,后续开发了友好的交互界面,并据称正在推进三维界面的研发,以进一步增强系统的可视化能力和操作便捷性。

当前智能领域面临许多问题,其根源可以追溯到哲学中的一个核心观点:“我是谁?从哪来?到哪去?”智能体无法理解自身的本质和起源,这导致了所谓的“智能”存在局限性。人工智能的发展有两个重要节点:一个是大卫休谟(David Hume),苏格兰著名哲学家,他在《人性论》中提出了休谟问题,强调从事实being中能否推导出价值should?should类似于中国人常说的“义”——义气、仗义,应该得意思。

西方哲学倾向于将事实与价值割裂,认为事实是客观的,而价值无法从事实中得出。这种还原主义思想追求世界的本源,即马斯克常提到的“第一性原理”。相比之下,中国人的思维方式更注重整体论和系统论,强调事物的整体性和系统性,而非无限分解。这种思维影响了康德和爱因斯坦等西方思想家,形成了东西方在智能与哲学上的不同路径。

这杯水是否好喝,取决于喝水的人的主观感受。这一思想与量子力学中的“薛定谔的猫”有相似之处,强调了观察者的重要性。这种思想影响了康德和爱因斯坦,爱因斯坦曾表示,没有休谟的怀疑主义思想,就不可能诞生相对论。休谟认为世界上不存在因果关系,他是反因果的,这种怀疑主义在科学家中具有重要意义。

另一个重要人物是图灵的老师和朋友维特根斯坦。他的两部著作《逻辑哲学论》和《哲学研究》对哲学产生了深远影响。维特根斯坦认为,世界的边界就是语言的边界,他是分析哲学的代表人物,主张用语言来表征世界。他的思想剔除了传统逻辑的束缚,为哲学和科学提供了新的视角。

人工智能面临三大瓶颈问题:第一是可解释性,即模型的决策过程缺乏透明性;第二是人类学习与机器学习的差异,人类学习基于经验和抽象,而机器学习依赖数据和模式;第三是尝试机制,机器的尝试与人类的尝试本质不同,缺乏主动性和创造性。这些问题目前尚未得到解决。

在大模型时代,为什么特别强调人机系统智能?因为当前的人工智能尽管取得了显著进展,但通过对比研究发现,它仍然无法真正理解并融入智能的本质领域。人机系统智能旨在结合人类与机器的优势,弥补人工智能的局限性,推动智能技术的进一步发展。

当前的人工智能本质上仍是自动化,过去的人工智能是现在的自动化,而现在的人工智能则是未来的自动化。然而,这些技术并未触及智能的核心本质。智能的核心在于洞察、辩证、矛盾以及艺术性的非欺骗思维,能够回答“应该是什么”和“下一步是什么”,并具备态势感知能力。

中国古代思想对智能的描述可以概括为三个关键词:知几、趣时和变通。知几是指察觉兆头和苗头,趣时是抓住时机,变通则是随机应变。这些能力要求对环境和情境的深刻理解与灵活应对,而目前的人工智能还无法达到这种高度。因此,尽管人工智能在自动化方面取得了巨大进展,但它仍然缺乏真正的智能灵魂。

未来的智能将围绕人机环境交互展开,而非单纯的类脑研究。智能的核心包含计算与算计:机器擅长计算,而人类则解决方向性问题,确保做正确的事,并处理复杂性。这种复杂性并非源于科技,而是数学的本质。因此,智能的核心在于复杂,而非技术手段。

我们将环境分为简单、中等和复杂三个层次,并通过任务规划将其映射到L1-L5的架构中,为某公司设计了这一系统。未来的人机环境交互将更加复杂:“人”包括不同角色的真实人、数字人和虚拟人;“机”涵盖软件和硬件;“环境”则包括真实环境、虚拟环境、任务环境、电池环境、网络环境和数字环境。这种多维度的交互模式使得未来的人机环境几乎等同于元宇宙的概念,展现了智能系统的广阔前景。

近期,许多专家在分析人工智能的顶层设计与实际落实情况时得出初步结论:某国在军事人工智能领域的进展存在夸大,远未达到其宣称的水平。同时,有消息称,未来几年军费可能会有所调整。此外,在最近的两次国际会议上,相关高层表示,两国应避免直接对抗,并强调可以通过非战争形式解决分歧。另有观点认为,某国是否具备组织一场势均力敌的作战能力,也受到了一些质疑。

美国智能发展的两大支柱是“机器学习”和“自主系统”,这也是当前国际竞争的焦点。机器学习在军事领域已有应用,例如卫星图像识别,但自主系统的发展仍处于早期阶段。人工智能不应仅被视为产品,而是一个生态系统。例如,2022年末的一篇论文提到,这一生态包括技术变革、系统演变、运行方式创新和组织适应,共同构建了完整的体系。

传统的信息论、系统论和协同论正在发生深刻变化,新的理论和实践不断涌现。这些变化的核心在于,不再仅仅关注实时性数据,而是开始融入主观性和艺术性因素,推动了智能技术的全面演进。

通过对态势感知的分析,我们认为智能分为两大块:态势感知和计算。Deepseek正是专注于态势感知,从感知数据到构建逻辑联系,形成完整的态势感知过程。真正的高级智慧往往体现在一些杰出人物和女性的敏锐思维中。例如,某些历史人物具备极强的态势感知能力,能够在关键时刻做出战略性决策,从而避免更大的危机。真正的智能在于将态势感知与计算双向融合,形成主客观的联系,从而实现对复杂环境的深刻理解和应对。这种能力不仅体现在数据层面,更体现在对趋势和变化的敏锐洞察中。

当前的计算仍以传统的二进制为基础,而《易经》中的阴阳思想本质上也是一种二进制。汉代杨雄的《太玄经》则在此基础上引入了三进制,研究天、地、人之间的关系。三进制不仅包含二进制的0和1(阴与阳),还增加了一个维度——价值,将主观因素融入计算,这一思想极具启发性。我们也在探索三进制系统的应用。

我们认为,“计算”是本体论,而“算计”是变体论(动态变化的)。智能的本质并非仅仅依赖数据、算法、算力,而在于人类如何使用这些工具。“智力”是学习的速度,例如清华的学生智力较高,学习速度快,但“智能”则体现为运用知识的能力,“智慧”则是协调复杂事物的能力。智力、智能和智慧是三个不同的层次。

目前,智能研究主要依赖数学方法,如统计、概率和规则,这些方法虽有积极作用,但也存在局限性。我们认为,机器的智能可以用二元的数式计算,而人类的智能则需要三元的价值算计,将主观与客观结合,才能更接近真正的智能。

未来的五大发展方向包括:主动、交互、容错、混合和按需组网。通过研究,我们得出了一个初步结论:当前的个人数字助手系统在很大程度上并未真正帮助人类,很多情况下,反而干扰了人类的决策过程。这一现象颇具讽刺意味,原本旨在辅助人类的系统,却在实践中成为了决策的干扰因素。

我们正在搭建一个基本框架,先和大家简单分享下相关概念。传统人工智能有其既定规则,基于大模型和数学,应用于特定领域,人机交互则融合了自动化与人工智能。

所谓自动化,特点是确定的输入、处理、输出和反馈。像自动化生产线,整个流程都是确定的。而人工智能在事物处理、输出和反馈上带有不确定性,智能的不确定性更强。

人机环系统智能没有固定规则,它融合了人的智慧、人工智能和任务环境。通常大家理解的神经系统,多局限于人工神经网络,实际上还应包括人的神经网络和环境的神经网络,这是一个三体神经网络系统。

我们最近完成了三部曲:2019年的《追问人工智能》、2021年的《人工融合超越人工智能》以及2024年7月的《人机环系统智能超越人机融合》。这三部书集中体现了我们的核心思想。接下来,我们计划在今年上半年推出三本关于人机环系统智能应用的新书,许多单位,包括一些相关机构,对此表现出浓厚兴趣,并希望参与架构设计。此外,针对机器幻觉和机器欺骗等问题,我们也在探索规避方法。这是我们实验室的最新动态,欢迎关注。未来,我们将继续推动智能技术的创新与应用。

本文摘自FlameChina微信公众号2025.02.25

cabd73b003b6eedace27869e159f41e2.jpeg

64b297583bf8c847c2219c6ada51f3e3.jpeg

python+opencv简谱识别音频生成系统源码含GUI界面+详细运行教程+数据 一、项目简介 提取简谱中的音乐信息,依据识别到的信息生成midi文件。 Extract music information from musical scores and generate a midi file according to it. 二、项目运行环境 python=3.11.1 第三方库依赖 opencv-python=4.7.0.68 numpy=1.24.1 可以使用命令 pip install -r requirements.txt 来安装所需的第三方库。 三、项目运行步骤 3.1 命令行运行 运行main.py。 输入简谱路径:支持图片或文件夹,相对路径或绝对路径都可以。 输入简谱主音:它通常在第一页的左上角“1=”之后。 输入简谱速度:即每分钟拍数,同在左上角。 选择是否输出程序中间提示信息:请输入Y或N(不区分大小写,下同)。 选择匹配精度:请输入L或M或H,对应低/中/高精度,一般而言输入L即可。 选择使用的线程数:一般CPU核数相同即可。虽然python的线程不是真正的多线程,但仍能起到加速作用。 估算字符上下间距:这简谱中符号的密集程度有关,一般来说纵向符号越稀疏,这个值需要设置得越大,范围通常在1.0-2.5。 二值化算法:使用全局阈值则跳过该选项即可,或者也可输入OTSU、采用大津二值化算法。 设置全局阈值:如果上面选择全局阈值则需要手动设置全局阈值,对于.\test.txt中所提样例,使用全局阈值并在后面设置为160即可。 手动调整中间结果:若输入Y/y,则在识别简谱后会暂停代码,并生成一份txt文件,在其中展示识别结果,此时用户可以通过修改这份txt文件来更正识别结果。 如果选择文件夹的话,还可以选择所选文件夹中不需要识别的文件以排除干扰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值