
认知计算-多模态
文章平均质量分 91
认知计算-多模态
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA
多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。近日,来自厦门大学纪荣嵘团队提出了一个全新的。原创 2024-07-08 14:04:23 · 777 阅读 · 0 评论 -
Nature子刊评论:大脑对算法的独特理解,我们是否能够理解神经算法到底是什么?
然而,现实的连续计算模型的设计可能具有挑战性,并且可能会无意中引入在有限时间内解决不可计算问题的能力。Jaeger 及其同事提出的流畅计算模型建立在这些努力的基础上,结合了可组合性的实际优势即,用更简单的算法构建更复杂的应用程序的能力)和传统计算中固有的关联,这些约束来自神经系统的物理描述。尽管如此,虽然人工神经网络是描述大脑计算的卓有成效的框架,特别是在感觉系统中,但使用针对图形处理单元 (GPU) 优化的算法来有效描述大脑的各种计算仍然存在尴尬,其中许多计算并没有立即被当前的人工智能很好地描述。原创 2024-04-14 21:37:58 · 678 阅读 · 0 评论 -
多模态和多模态大模型
确实,在我众多的讨论中,我深信,多模态系统,尤其是 LMM,将比大语言模型有更深远的影响。我们常见的语言模型是根据前面的文本 Token 来猜测下一个 Token 是什么,但Flamingo 进行了创新,它同时考虑了文字和图片,根据前面的文本和视觉 Token 预测下一个文本 Token。去年,几乎每周都有研究团队推出自己的LMM,比如 DeepMind 的 Flamingo、Salesforce 的 BLIP、微软的 KOSMOS-1、Google 的 PaLM-E,还有腾讯的 Macaw-LLM。原创 2024-01-30 13:26:43 · 1270 阅读 · 0 评论 -
论文 多模态认知计算
务, 如视觉 – 语言导航 [19], 视觉 – 语言大规模自监督预训练等 [7]. 相较于看图说话与问答任务, 这些。学习任务, 如空间音频驱动下的深度图生成 [64], 空间一致性约束下的多模态自监督学习 [65], 以及视觉。收稿日期: 2022–06–08;损失 [18], 或基于排序的损失 [70] 等度量学习相关的目标实现不同模态间的对齐关系学习, 以实现对不。第 6 节, 围绕多。看, 即式 (5), 时间对齐能够为在减小数据量 D 的基础上, 实现提取信息量的最大化, 而信息量的最大。原创 2023-08-06 15:44:18 · 325 阅读 · 0 评论