人工智能_18号房客的博客-CSDN博客

人工智能

关注

文章平均质量分 83

关注数：文章数：60 文章阅读量：59934 文章收藏量：900

作者: 18号房客

这个作者很懒，什么都没留下…

展开

推动多语言语音科技迈向新高度：INTERSPEECH 2025 ML-SUPERB 2.0 挑战赛

ML-SUPERB 2.0 在评估机制上进行了创新，模型评估指针除了传统的语音识别和语言识别错误率外，还强调模型在每种语言上都具备稳定性能，真正做到对所有语言的友好支持，激励研究者关注小众语言与弱势语言的平等支持，最终实现“No Language Left Behind”。通过凝聚全球研究者与开发者的力量，挑战赛将加速多语言语音技术的创新与普及，为语音技术的应用场景带来更多可能性。●训练集：涵盖 141 种语言的丰富语音数据，从主流语言到稀有方言，为参赛者提供多元化的语言资源以训练模型。

原创 2025-01-08 16:53:00 · 882 阅读 · 0 评论
AI华佗？港中大、深圳大数据研究院提出医疗推理大模型HuatuoGPT-o1

通过这种方法，研究人员提出了 HuatuoGPT-o1，这是一种能够生成长思维链（CoT）以识别错误、尝试不同策略并优化答案的医学大型语言模型（LLM）。同时，该团队推出了 HuatuoGPT-o1，这是一款能够进行复杂推理的医学 LLM，仅使用 40K 个可验证问题，其表现就优于医学专用基线。医学领域虽然不同于数学，但鉴于医疗保健的高标准，它也需要强大的推理能力来提供可靠的答案。为了解决这个问题，香港中文大学，深圳市大数据研究院的研究人员提出了可验证的医学问题，使用医学验证器来检查模型输出的正确性。

原创 2025-01-08 16:52:17 · 1074 阅读 · 0 评论
全球首个神经连接机械腿，截肢者恢复自然行走，还带空间感

拥有这种神经接口的患者能够以正常速度行走，上下台阶和斜坡，并且无需思考就能绕过障碍物，这是自然的、下意识的行为，」MIT Media Lab 教授、论文合著者 Hugh Herr 说道。」最新发表的研究中值得注意的是，参与者人数比以前的研究要多，其中包括七名接受治疗的患者和七名接受对照的患者。在传统的膝下截肢过程中，这些成对肌肉的相互作用被打乱。这里的主要发现之一是，截肢肢体的神经反馈只需稍有增加，就可以获得明显的仿生神经可控性，达到允许人们直接神经控制行走速度、适应不同地形和避开障碍物的程度。

原创 2025-01-06 11:37:38 · 945 阅读 · 0 评论
18个月326项能力，这家大厂猛猛上新生成式AI，如今纯靠Prompt就搞定企业级应用了

有 Amazon Bedrock 的 30 多个顶尖大模型，企业用户能以极地的试错成本拓展业务赛道，有了 Amazon Q 这样的 AI 助手和 320 多项生成式 AI 能力的加持，企业的生产力提升显得「易如反掌」。当然，这种从简单到复杂的迅速成长，与大模型在各行各业的落地经验反哺是分不开的。要想实现新技术的大规模落地，人们面临着一系列新的挑战 —— 不仅需要大模型服务背后的 AI 算法能力必须优秀，而且还是一场从算力到数据，框架到模型，开发到部署的全流程技术体系的考验。」，可以在多次交互中保留记忆。

原创 2025-01-06 11:36:39 · 1122 阅读 · 0 评论
北大、港理工革新性LiNo框架：线性与非线性模式有效分离，性能全面超越Transformer

此外，LiNO 在面临不同噪声水平的挑战时，依然展现出了卓越的鲁棒性和可靠性，如图 5 所示，这不仅验证了其设计的稳健性，也进一步证实了在时间序列预测模型中区分线性与非线性模式对于提升预测鲁棒性的重要性。但是这样只能获取简单的线性模式，而且得到的非线性模型或者说 Seasonal 项事实上是由未充分提取的线性模型，待提取的非线性模式，以及序列中的噪声所组成的，应该被称为 Residual（残差），而不是 Seasonal。上图中红色的序列可以被表征为其下方的两种线性和两种非线性模式的加和。

原创 2025-01-05 11:49:24 · 813 阅读 · 0 评论
Science子刊 | GPT4、Llama等LLM可以调节粒子加速器？仅50%性能优化，未来可期

为此，研究人员比较了 14 种不同的 LLM（包括 Gemma、GPT 4、Llama 2 、Vicuna 7B 、Mistral、Starling-LM 等主流大模型的不同版本）和 4 种不同的提示模板（调整提示、解释提示、思路链提示和优化提示），并评估了基于 LLM 的方法与其他调谐算法（包括 RLO 和 BO）的比较。考虑到 14 种不同的开放权重和商业 LLM 以及 4 种不同的提示的组合，研究人员发现 34 种 LLM 提示组合中只有 18 种能够成功实现本文中考虑的横梁参数调整任务的优化。

原创 2025-01-05 11:48:04 · 1071 阅读 · 0 评论
没有博士学位却开启了GPT时代，奥特曼盛赞Alec Radford，爱因斯坦级天才

他的第一个实验是使用 20 亿条 Reddit 评论来训练语言模型，虽然失败，但 OpenAI 给予了足够的试错空间，也成为后续一系列革命性突破的开始，如大家熟知的初代 GPT，还主导了 GPT-2 的研发等。2024 年年末，在 OpenAI 赚尽眼球的 12 天连发的最后一天前，Alec Radford 即将离开 OpenAI 的消息传出，但没有任何消息透露这是否与 OpenAI 的组织结构调整有关。遗憾的是，对于他之后的职业计划，我们所知的仅仅是他将成为一位独立研究者。

原创 2025-01-02 20:26:05 · 1441 阅读 · 0 评论
AI幻觉能助力科学重大突破？诺奖得主Baker用得可香了

现在，人工智能幻觉正在重新激发科学的创造性。他们认为生成人工智能模型的想象不是虚幻的，而是有希望的——有可能实现，与科学方法早期阶段的猜想没有什么不同。尽管如此，专家在采访中表示，与聊天机器人及其同类的幻觉相比，科学人工智能的想象力具有巨大的优势。他们说，最根本的是，创造性的爆发源于自然和科学的铁一般的事实，而不是人类语言的模糊性或以偏见和谎言而闻名的互联网的模糊性。然后，正如 2021 年的论文所报道的那样，当基因被插入微生物体内时，微生物产生了 129 种科学和自然界未知的新型蛋白质，顿悟时刻到来了。

原创 2025-01-02 20:24:32 · 891 阅读 · 0 评论
26年前老年机跑Llama2，每秒39个token：你的AI PC，也可以是Windows 98

通过这种方式，普通人几乎可以在任何设备上训练和运行人工智能模型 —— 而这个疯狂的 Windows 98 运行大模型只是一个演示，展示了在（严重）有限的资源下我们可以做些什么。虽然没有达到 ChatGPT 的速度，但让任何现代人工智能模型在二十多年前的 CPU 硬件上运行，都是朝着我们的使命迈出的重要一步。一个 7B 参数的 BitNet 模型只需要 1.38GB 的存储空间，小到足以安装在大多数硬件上，甚至是几十年前的 PC（我们使用的 PC 只有 1.6GB 的硬盘驱动器）；

原创 2025-01-01 14:47:55 · 1004 阅读 · 0 评论
拿下近3亿元融资后，爱诗上线新模型，AI视频生成速度杀入10秒大关

（低角度跟踪拍摄，18 毫米镜头，汽车漂移，留下光线和轮胎烟雾的痕迹，创造出视觉冲击力极强的抽象构图，摄像机低角度追踪拍摄，捕捉这辆橄榄绿色的时尚肌肉车驶近弯道的瞬间，随着汽车急速漂移，镜头变得更加风格化，在周围城市灯光和镜头光晕的照射下，旋转的车轮和滚滚的轮胎烟雾在漆黑的沥青路面上形成了光与色的交错，城市景观 —— 黄色出租车、霓虹灯和行人 —— 成为一个模糊的抽象背景。PixVerse V3.5 生成的画面极具张力，怪物可怕的形象让恐怖氛围拉满，远处的闪电划破夜空照亮整个城市，形成强烈的光影对比。

原创 2025-01-01 14:46:28 · 1433 阅读 · 0 评论
粉毛小姐姐竟是AI？谷歌新玩具Veo2快把Vlog界整疯了

该网友还表示，AI 技术确实已经融入内容创作和娱乐中，但他并不希望看到 AI 生成的纪录片、现场报道等内容。众所周知，为了方便用户打开，化妆品的包装盒上方会有微微外鼓的设计，Veo 2 就连这么微小的细节都复刻出来了。更让人讶异的是，小哥从天桥底下钻出的那一刻，光影瞬间改变，是不是真实到没边了？但细看就会发现博主的手指有瞬间的变形和虚化，特效文字还是出现乱码。一个干净的背景，一个架起的话筒，主理人在镜头面前滔滔不绝。以下这几个视频，来猜猜哪个是 AI 生成的，哪个是真实的 Vlog。

原创 2024-12-31 20:13:25 · 625 阅读 · 0 评论
AI能力权威认证！用友大易入选最佳大模型产品及应用TOP20

YonGPT是用友融合企业各个领域专业知识和各类行业商业KnowHow，经过大量业务数据的预训练和精调的企业服务大模型，为企业提供智能化的人机协作、业务洞察、商业决策支持和智能运营服务，是深懂企业服务的垂类大模型。用友大易依托于YonGPT的强大功能，探索并实现AI技术在招聘方面的深度应用和商业价值，助力企业实现招聘的提效增质。展望未来，作为国内AI招聘解决方案领域的先行者，用友大易无疑将持续深化在AI在人力资源领域的探索，致力于前沿科技与实际应用场景的深度融合，为企业人才配置注入更为强劲的AI驱动力。

原创 2024-12-31 20:11:45 · 391 阅读 · 0 评论
推动智能决策，AutoML技术在腾讯广告推荐场景的探索与应用

广告推荐系统的表现直接影响用户体验和商业收益，如何在海量数据中精准捕捉用户需求并提供个性化推荐，成为广告推荐场景面临的重要挑战。为了解决该场景中的数据稀疏、冷启动等问题，腾讯机器学习平台部对 AutoML 相关技术进行了深入的研究，发表了一系列具有创新性的学术论文。

原创 2024-12-30 09:43:56 · 1138 阅读 · 0 评论
字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

近期陆续有一些工作开始关注研究交互式的人像生成，但它们都需要显式地指定「说话」或「倾听」的状态，且无法像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。近日，字节跳动提出了一套面向二元对话场景的交互式人像生成技术 INFP，该方案仅需输入一段双轨对话音频（分别来自智能体本身和对话伙伴的说话内容），即可实时驱动单张肖像照片生成相应的对话视频，且能够在多轮对话中生成自然的人物行为和反馈，例如表情、眼神、口型、姿态变化以及流畅的说话 - 倾听状态切换。交互式人像生成 INFP 字节跳动。

原创 2024-12-30 09:43:02 · 732 阅读 · 0 评论
像拼乐高一样设计新药，EPFL、牛津团队AI方法精确设计优化分子3D结构

模型通过五轮优化，将分子对目标激酶 BIKE（PDB 编号 4w9w）的结合得分从 -7.2 提升至 -13.9，同时降低了对非目标激酶 MPSK1（PDB 编号 2buj）的结合倾向，从 -10.8 降低至 -8.7。这种异构体间的差异只能通过反射敏感的模型来检测，证明了 SE(3)- 等变性在手性药物设计中的重要性。瑞士联邦理工学院（EPFL）、剑桥大学、康奈尔大学、牛津大学的联合研究团队开发的AI系统 DiffSBDD ，就像是一位经验丰富的分子建筑师，能够精确设计和优化药物分子的 3D 结构。

原创 2024-12-28 10:19:14 · 1022 阅读 · 0 评论
直逼记录极限，机器学习助力开发全新钙钛矿电池原料

为了更好地理解观察数据中的结构-性质关系，团队构建了一个 ML 模型，将代表性的分子描述符与器件的 PCE 相关联。为了获得准确的趋势，在均匀的器件条件下表征这些分子的性能，需要对其中的标准器件进行基于 PTAA 的优化。考虑了特定原子在报道中与钙钛矿具有积极的相互作用，与影响空穴传输的因素，如分子刚性和共轭，他们选择在101个实验分子数据点的随机10倍交叉验证上训练了不同的ML模型。贝叶斯优化考虑了模型的预测不确定性，以平衡探索，例如寻找新的有潜力的分子和利用改进已知的高性能分子。

原创 2024-12-28 10:17:47 · 1075 阅读 · 0 评论
自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

DeepSeek - R1 - Lite 的正确率为 0.611（33/54），o1 - preview 的正确率为 0.574（31/54），其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正确率则相对较低，分别为 0.519（28/54）、0.426（23/54）、0.315（17/54）。最后，加强对模型可解释性的研究，探索有效的方法和技术，使模型的推理过程更加透明、可理解，增强用户对模型的信任和应用的可靠性。

原创 2024-12-24 15:51:28 · 959 阅读 · 0 评论
AAAI 2025｜时间序列演进也是种扩散过程？基于移动自回归的时序扩散预测模型

ARMD 模型受经典的自回归移动平均（ARMA）理论启发，重新定义了时间序列的扩散过程：如图一所示，与传统的基于噪声的扩散方法不同，ARMD 将时间序列的演进看成是一个扩散过程，并采用了基于链式扩散的方式。经过在七个广泛使用的时序预测数据集上的大量实验，ARMD 模型的表现超越了现有的基于扩散的时间序列预测模型，并且和最先进的端到端时间序列预测模型取得了相当的效果。，使其逐渐接近历史序列。在 ARMD 中，时间序列的演进被概念化为一个扩散过程，时间序列的每一步都可以看成是扩散模型的一个状态，如图二所示。

原创 2024-12-24 15:49:38 · 1389 阅读 · 0 评论
从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能，但是和其他的基础模型，比如初版的 StableDiffusion 相比，即使是 pi 的数据都会少七八个数量级。因此获取足够的数据对于提升机器人的性能至关重要，但在当前实践中，针对新场景和新任务获取数据是一个从头开始不断重复的手动过程。研究者的愿景是完全在生成的虚拟世界中训练机器人，而核心在于找到精确控制语义组成和场景外观的方法，以对齐模拟物理世界，同时保持对于实现 sim-to-real 泛化至关重要的随机性。

原创 2024-12-10 19:49:37 · 484 阅读 · 0 评论
大模型「标王」硬气：不做Sora ，要帮更多企业做出Sora

百度创始人李彦宏曾在百度世界 2024 大会上透露，截至 11 月初，百度文心大模型的日均调用量达到 15 亿，相较一年前首次披露的 5000 万次，增长了约 30 倍。没有「专业选手」，用户也能基于「一见」视觉大模型平台训练出和百度原厂效果一样的视觉模型，因为「一见」凝结了七年的行业实践，积累了丰富的模型、算子和场景化模型产线。市场也用真金白银投了票。大模型又是 AI 公有云的细分领域，作为国内率先抢跑大模型的云厂商，2023 年百度智能云在大模型平台市场份额为 19.9%，也位居第一。

原创 2024-12-10 19:48:37 · 695 阅读 · 0 评论
媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

另外，各模型在不同主题上的表现差异显著，特别是中文社区的大模型（如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek）在 “中国文化（CC）” 主题上明显优于 GPT 或 o1 模型，而在科学相关主题（如 ETAS 和 NS）上，o1 则具有显著优势。整个构建和标注过程中，初步生成了 10,000 对问答对，经过难度评估和多轮验证，最终只保留了约 3,000 对高质量的问答对，确保了数据集的高质量和严谨性，希望为评估 LLM 的事实正确性提供正确的引导。

原创 2024-12-09 11:37:01 · 681 阅读 · 0 评论
实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

模型与应用两手抓，两手都要硬。同样地，此后出现的一系列对标 GPT-4o 的产品，如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等，虽然都宣称要打造自然流畅的 AI 对话，但从用户反馈来看，依然存在着一些直接影响对话体验的短板，比如可用性差、中断频繁和延迟严重等。自 GPT-4o 之后，语音交互场景的 AI 具备了前所未有的感知能力，在更智能化、更多面手之外，不仅响应延迟明显降低了，还能准确读懂用户的情感语调，如兴奋、高兴或悲伤，并以逼真的方式模仿和回应。

原创 2024-12-09 11:35:27 · 1047 阅读 · 0 评论
用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

在进行神经元探测时，我们发现不同于先前的 LLM 工作，往往激活最强烈的神经元并不是与高层级概念直接相关的，而是许多低层级的感知神经元。通过探究发现，造成模型输出 Yes 的罪魁祸首并不在图像的理解能力上，模型能够很好的找到需要关注的点，并准确的找到各个国家的名字。然而，在文字上面，我们发现模型过分的关注了 Bolivia 这一词，导致了最后的输出产生幻觉。3. 更准确的自动解释流程 —— 由于模型的局限性，许多神经元的解释往往存在错误，随着多模态大模型的推理能力逐渐增强，我们相信这一问题将会被慢慢攻克。

原创 2024-12-08 10:12:12 · 840 阅读 · 0 评论
突破！自然语言强化学习(NLRL)：一个可处理语言反馈的强化学习框架

以国际象棋为例，系统会先分析局势（“白方控制中心点，黑方王翼薄弱”），提出计划（“开展王翼进攻，同时固守中心”），最后给出具体建议（“Nf3-e5，威胁 f7 并加强中心控制”）。例如，在迷宫导航任务中，系统可能会这样分析：“向右移动是最优选择，因为：1）根据之前的探索经验，右侧路径更可能通向目标 2）即使这条路不是最短路径，也为我们保留了回退的选项 3）相比向上移动可能遇到的死胡同，这个选择风险更小。在现实世界中，反馈信号往往是多维度、多模态的，例如教练的口头指导、视觉示范，或是详细的文字说明。

原创 2024-12-08 10:10:24 · 745 阅读 · 0 评论
微软「AI伴侣」Copilot Vision，让你用嘴浏览网页，还能和你一起打游戏

他指出，现在人们常用的计算机图形界面就是为不懂编程的人设计的，而十年之后，这些东西将被 AI 接替，因为 AI 助手或 AI 伴侣将有能力理解有关你的一切，不管是情绪状态还是日程安排，又或是兴趣爱好、个人知识图谱、人际关系。此外，一旦用户结束与 Vision 的会话，有关用户所说内容以及用户与 Copilot 共享的上下文的所有数据都将被删除。当您选择启用 Copilot Vision 时，它会查看您正在浏览的页面，并与您一起阅读，然后你们可以一起讨论遇到的问题。一是底层 LLM，它具备网络上的知识。

原创 2024-12-07 10:41:24 · 440 阅读 · 0 评论
亚马逊云科技用生成式AI，向开发的复杂性动手了

生成式 AI 技术的爆发直接改变了数据团队和开发团队的合作方式，逐渐走向无缝协作的境界，目前的显著挑战在于数据孤立且分散在各个系统中，他们必须构建和维护复杂的数据管道，而且由于访问控制不一致，团队难以有效地访问和使用数据。如今 Amazon S3 微服务数量已经达到了 300+ 个，通过微服务架构将整个应用拆解为多个独立、功能明确的子服务，与 S3 的交互被大幅简化，相应的数据存储在独立的 S3 存储桶中，有助于数据隔绝管理，还能轻松扩展存储容量、确保高可用性和数据持久性。

原创 2024-12-07 10:40:11 · 971 阅读 · 0 评论
质量超越o1，成本仅4%，UCSD张怡颖教授团队开源生成式AI工作流自动优化器

下图展示了几个生成图的对比， 1) 人工画的基准图，2) 直接询问 OpenAI o1，3) 直接运行 MatPlotAgent 工作流，4) DSPy 优化过的工作流，以及 5) 由 Cognify 优化过的工作流。与此同时，Cognify 优化过的工作流的运行成本仅有 o1-preview 的 4%。对于不同的应用场景，Cognify 都用相同或更小的模型达到了更高的生成质量，推动了质量 - 成本 Pareto 边界，并且允许用户选择不同的质量 - 成本组合（结果如下图所示）。

原创 2024-12-05 11:30:25 · 1135 阅读 · 0 评论
NeurIPS Spotlight｜从分类到生成：无训练的可控扩散生成

然而，生成符合特定条件（如标签、属性或能量分布）的样本，通常需要为每个目标训练专门的生成模型，这种方法不仅耗费资源，还严重制约了扩散模型作为未来基座模型实际应用潜力。实现 TFG 的核心是利用 Tweedie’s formula，通过预训练的扩散模型预测当前噪声样本对应的干净样本分布均值，再用判别器进行打分，将可微的分数进行反向传播，从而指导噪声样本的去噪过程。本文从理论上证明，已有的一些无训练指导算法（例如 UGD，FreeDoM，MPGD，DPS，LGD）都是 TFG 的特例。

原创 2024-12-05 11:25:29 · 979 阅读 · 0 评论
谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏

而飞飞的 World Labs 是更进一步挖掘世界的物理本质：从图片出发，估计图片中不同景物的深度和相对关系，生成了更加物理世界的 3D 环境建模，不仅仅是可互动视频。不管怎样，这些新技术的碰撞都是进步的过程，王梦迪教授也表达了这样的期待：「期待看到更多不同技术思路的进展和对决。虽然这项研究仍处于早期阶段，智能体和环境生成能力还有很大的改进空间，但谷歌相信 Genie 2 是解决安全训练具身智能体结构性问题的一大途径，同时也能提供迈向 AGI 所需的广度和通用性。其可生成丰富多样的 3D 世界。

原创 2024-12-05 11:23:57 · 1077 阅读 · 0 评论
被忽略的起点？Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

最后，从发展进步的本质来看，这个故事相当有趣——类似的想法和表述「早就已经在空气中回荡」，特别要提到当时 Alex Graves（NMT）和 Jason Weston（记忆网络）的工作。在某个时候，我表现得很了解我做的东西了，Yoshua 邀请我攻读博士学位（2014 年是一个很好的时机，表现得很了解就已经足够了——美好的旧时光！在我看来，直到今天（大约 7 年过去了），Transformer 基本上还保持着 2017 年的形式，只有相对较少的微小修改，也许除了使用更好的位置编码方案（RoPE 等）。

原创 2024-12-04 16:33:54 · 274 阅读 · 0 评论
昨晚的「云计算春晚」，大模型、芯片连发，比OpenAI、谷歌上新都猛

与让大模型学会新技能的「训练」相对应的是，推理是 AI 模型生成预测或输出的过程，代表着模型的应用。如果说去年的我们还在摸索如何适应新的生成式 AI 技术，那么到了 2024 年的末尾，更重要的是：如何持续降低生成式 AI 的应用成本，换言之，提升生成式 AI 技术应用的性价比。基础模型之上，大模型领域的竞争已经升级到「智能体」（Agent）阶段，Anthropic、微软等公司纷纷推出了桌面级的智能体应用，它们大大扩展了大模型执行任务的范围，比如网购、发邮件、订票，就像是打通了大模型落地的最后一关。

原创 2024-12-04 16:31:48 · 560 阅读 · 0 评论
NeurIPS 2024 | 数学推理场景下，首个分布外检测研究成果来了

研究团队量化了这一观察，其中表示出现的所有 token 数，表示出现过的 token 种类，表示 token 重复率，表示 token 种类在词表中的占比，发现在一些简单的算术场景下，token 重复率达到了惊人的 99.9%！为了应对这个挑战，研究团队跳出了静态 Embedding 的方法框架，提出了一种全新的基于动态 Embedding 轨迹的 OOD 检测算法，称作 “TV Score”，以应对数学推理场景下的 OOD 检测问题。本文是 OOD 检测算法在数学推理场景下的首次探索。

原创 2024-12-03 09:52:51 · 699 阅读 · 0 评论
流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

在电力消耗预测任务、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的结果证明，该方法能够作为现成的解决方案，克服流式障碍，提供以前无法通过流式方法实现的结果，甚至超越批量 RL 的性能。与普遍认知相反，本文证明了流式深度强化学习可以是稳定的，并且在样本效率上可与批量强化学习相当。「最初的强化学习（RL）算法受自然学习的启发，是在线且增量式的 —— 也就是说，它们是以流的方式进行学习的，每当新的经验增量发生时就学习，然后将其丢弃，永不再次处理。

原创 2024-12-02 10:11:34 · 823 阅读 · 0 评论
Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

例如，当你问「阿姆斯特丹十大景点」之类的问题时，一些受雇的数据标签员可能在某个时候看到了类似的问题，使用谷歌等软件研究了 20 分钟，列出了 10 个景点的列表，然后字面意思就变成了正确答案，训练人工智能给出该问题的答案。所以从某种意义上来说，这算是「超人」，但 Karpathy 认为：要按照人们默认的方式成为真正的「超人」，要去 RL 而不是 RLHF。虽然随着时间的推移，大模型的参数体量越来越大，训练的数据也越来越多，性能也不断提升，但从基础机制的角度来说，它们似乎并不靠谱。也许是时候寻找新的方法了？

原创 2024-12-02 10:10:07 · 984 阅读 · 0 评论
关于计算机视觉中的自回归模型，这篇综述一网打尽了

同时，本文还对不同类型的自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中的性能进行了比较和分析。在图像生成任务中，GANs 可以快速生成逼真的图像，但可能会出现模式崩溃的问题，即生成的图像缺乏多样性。随着计算机视觉领域的不断发展，自回归模型作为一种强大的生成模型，在图像生成、视频生成、3D 生成和多模态生成等任务中展现出了巨大的潜力。本文对计算机视觉中的自回归模型进行了全面综述，介绍了自回归模型的基础、通用框架分类、与其他生成模型的关系、应用领域、评估指标以及面临的挑战和未来工作。

原创 2024-12-01 22:50:41 · 931 阅读 · 0 评论
ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

通过施加这种一致性，研究者引入了一个强大的、以物理为基础的约束条件，确保模型只修改图像的光照方面，同时保留反照率和精细图像细节等其他固有属性。此外，模型还支持不同的基础模型，比如 SD1.5、SDXL 和 Flux，这些模型的功能在生成的结果中都有所体现。在现实世界中，光照和物体表面的材质是紧密关联的。在这篇论文中，研究者根据光传输独立性的物理原理，提出了在训练过程中强加一致光（IC-Light）传输的方法，其物理原理是：不同光照条件下物体外观的线性混合与混合光照下的外观一致。

原创 2024-12-01 22:49:37 · 761 阅读 · 0 评论
rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

最近，正处于评议阶段的 ICLR 2025 论文真是看点连连，比如前些天爆出的 ICLR 低分论文作者硬刚审稿人的事件以及今天我们要介绍的这个通过 rebuttal（反驳）硬是将自己的平均分拉高 2 分，直接晋升第 9 名的论文。过去，主流的 AE 仅能将图像的长度和宽度压缩 8 倍（AE-F8）。此外，他们也提出了一种 Flow-DPM-Solver，相比于广泛使用的 Flow-Euler-Solver，这种新的求解器可将推理采样步骤从 28-50 步减少到 14-20 步，同时还能实现更好的结果。

原创 2024-11-29 14:04:23 · 559 阅读 · 0 评论
世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

近年，有研究致力于提升虚拟生理心脏的计算速度。虚拟生理心脏的构建可利用生理组学的研究方法，综合分子生物学、生物化学、生理学、解剖学及临床医学的最新成果，数学化以及模式化地整合从基因、蛋白质、细胞、组织到器官的解剖（多物理尺度：空间尺度跨越 10^9 量级，跨时间尺度：时间尺度跨越 10^15 量级，如图 1 所示）、生理和生化信息，应用计算机强有力的计算和图形显示能力，通过赋予其心脏所具有的动力学特性、生化特性和各种生理病理特点，使之从形态、结构和功能等方面逼真地再现心脏的生理和病理活动过程。

原创 2024-11-29 14:02:49 · 915 阅读 · 0 评论
Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

而拥有 Critique 模型时， Actor 模型最终修改给出的答案更为一致，使得正确答案的占比会超过某些出现频率较高的错误答案，帮助模型能够更好的选出正确答案。为了探究 Critique 模型是否对多种模型——尤其是那些模型大小与性能高于自己的 Actor 模型——做到相类似的帮助，作者固定 Critique 模型为 3B 大小的 Qwen-2.5 模型，并使用不同模型大小的 Qwen-2.5 系列模型（1.5B、3B、7B、14B）作为 Actor 模型进行了实验。不同训练策略与测试策略的性能性能。

原创 2024-11-28 20:33:31 · 878 阅读 · 0 评论
LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

针对轴承故障诊断中振动数据难以挖掘语义信息的问题，基于传统故障诊断的统计学分析框架，提出了一种融合时域和频域特征提取的信号特征量化方法，将时序数据进行文本化处理，旨在通过精简的特征选择高效学习小样本和多工况下的共性特征。针对 LLM 在解析振动数据特征时泛化能力不足的问题，该团队采用基于 LoRA 和 QLoRA 的振动数据微调方法，有效利用预训练模型的深层语义理解能力，提高故障诊断的精确度并增强模型的泛化性能。为解决泛化诊断难题，论文提出基于 LLM 的轴承故障诊断框架，创新点主要包括。

原创 2024-11-28 20:32:22 · 963 阅读 · 0 评论

人工智能

作者: 18号房客

推动多语言语音科技迈向新高度：INTERSPEECH 2025 ML-SUPERB 2.0 挑战赛

AI华佗？港中大、深圳大数据研究院提出医疗推理大模型HuatuoGPT-o1

全球首个神经连接机械腿，截肢者恢复自然行走，还带空间感

18个月326项能力，这家大厂猛猛上新生成式AI，如今纯靠Prompt就搞定企业级应用了

北大、港理工革新性LiNo框架：线性与非线性模式有效分离，性能全面超越Transformer

Science子刊 | GPT4、Llama等LLM可以调节粒子加速器？仅50%性能优化，未来可期

没有博士学位却开启了GPT时代，奥特曼盛赞Alec Radford，爱因斯坦级天才

AI幻觉能助力科学重大突破？诺奖得主Baker用得可香了

26年前老年机跑Llama2，每秒39个token：你的AI PC，也可以是Windows 98

拿下近3亿元融资后，爱诗上线新模型，AI视频生成速度杀入10秒大关

粉毛小姐姐竟是AI？谷歌新玩具Veo2快把Vlog界整疯了

AI能力权威认证！用友大易入选最佳大模型产品及应用TOP20

推动智能决策，AutoML技术在腾讯广告推荐场景的探索与应用

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

像拼乐高一样设计新药，EPFL、牛津团队AI方法精确设计优化分子3D结构

直逼记录极限，机器学习助力开发全新钙钛矿电池原料

自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

AAAI 2025｜时间序列演进也是种扩散过程？基于移动自回归的时序扩散预测模型

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

大模型「标王」硬气：不做Sora ，要帮更多企业做出Sora

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

突破！自然语言强化学习(NLRL)：一个可处理语言反馈的强化学习框架

微软「AI伴侣」Copilot Vision，让你用嘴浏览网页，还能和你一起打游戏

亚马逊云科技用生成式AI，向开发的复杂性动手了

质量超越o1，成本仅4%，UCSD张怡颖教授团队开源生成式AI工作流自动优化器

NeurIPS Spotlight｜从分类到生成：无训练的可控扩散生成

谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏

被忽略的起点？Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

昨晚的「云计算春晚」，大模型、芯片连发，比OpenAI、谷歌上新都猛

NeurIPS 2024 | 数学推理场景下，首个分布外检测研究成果来了

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

关于计算机视觉中的自回归模型，这篇综述一网打尽了

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究