- 博客(349)
- 资源 (7)
- 收藏
- 关注
原创 MacOS 的 AI Agent 新星,本地沙盒驱动,解锁 macOS 操作新体验!
Cua 让 AI 不再只是“聊天机器人”,而是能直接动手操作你的 Mac!具备本地虚拟机隔离、性能卓越、模型灵活配置等优点,无论是开发、自动化办公、智能助手,都能极大提升效率。GitHub 项目地址:https://github.com/trycua/cua●一款改变你视频下载体验的神器:MediaGo●新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star。
2025-04-30 23:20:42
193
原创 马斯克:Grok 3.5 下周发布!能用第一性原理给出互联网上不存在的答案
Grok 3.5 初期将仅限「SuperGrok」订阅者体验,很多用户表示疑惑:The German Observer(@i_am_nelsy) 和 Scott(@ScottTaylor) 同时发问:什么是 SuperGrok 用户?SuperGrok 是付费订阅的高阶服务,享受优先体验新功能的特权。不得不说,虽然嘴上恨死了Sam Altman,但老马也是被带坏了啊……GROK N ROLL(@groklife99) 毫不吝啬地赞美:Grok 是持续送礼物的 AI,Just Grok it!
2025-04-30 23:18:48
542
原创 计算机语言及其创始人: C - Dennis Ritchie1973,
• Ruby是由Yukihiro Matsumoto在1995年开发的,是一种注重简洁和生产力的编程语言。• C语言是由Dennis Ritchie在1970年代初开发的,广泛用于系统编程和嵌入式系统。开发的,是一种广泛用于企业级应用和Android开发的编程语言。年开发的,是一种广泛用于科学计算、数据分析和人工智能的编程语言。开发的,是一种广泛用于文本处理和系统管理的脚本语言。年开发的,是一种广泛用于服务器端开发的脚本语言。• Perl是由Larry Wall在。年开发的,是网页开发的核心语言之一。
2025-04-30 23:15:59
231
原创 中国科学院自动化所赵冬斌团队 | 通过合成观测学习未来表征以实现高效强化学习
以往先进的自监督强化学习方法都试图设计更好的辅助目标,以便从智能体的经验中提取更多信息,但却忽略了强化学习训练中经验有限(受限于智能体探索)所导致的自监督任务训练数据约束问题。在本文中,我们首次尝试突破这一辅助训练数据的限制,提出了一种名为 “从合成观测学习未来表征(LFS)” 的全新强化学习辅助任务,它通过丰富辅助训练数据来改进自监督强化学习。不同于最近的先进自监督强化学习方法,我们的方法不依赖奖励或动作信息,可以在不含动作信息的视频完成表征预训练,取得先进的下游强化学习采样效率。
2025-04-30 23:10:48
626
原创 Python教程——闭包
该公众号发布Python、数据库、Linux、Flask、Django、自动化测试、Git、算法、前端、服务器等相关文章!使用nonlocal修改闭包外部函数的变量其本质上是在闭包内定义了一个局部变量。注意:闭包引用了外部函数的变量,则外部函数的变量没有及时释放,消耗内存。变量的基础上完成一些列的操作,那该怎么办呢,这时我们可以通过闭包。函数嵌套的前提下,内部函数使用了外部函数。2025年04月27日 19:07。变量,并且外部函数返回了内部函数,闭包外部函数的变量时,可以使用。外部函数返回了内部函数。
2025-04-30 23:04:49
222
原创 AI音乐的“过审难题”:如何用“创作证据”打破平台限制
本土的代表性产品包括字节跳动推出的海绵音乐(Doubao旗下平台,用户可输入文本或图片生成音乐),网易云音乐的天音工具(AI作词作曲平台,一键生成歌词与旋律),以及昆仑万维推出的“天工SkyMusic”模型(基于Tiangong 3.0,号称国内首个音乐SOTA模型)。例如,某用户以春节团圆为主题,通过ChatGPT生成歌词内容,再利用Suno生成音乐,并通过Stable Diffusion和Runway等工具制作故事板和动画,最终通过剪映进行视频剪辑,完成了完整的AI音乐视频。
2025-04-30 23:01:01
437
原创 大模型深度报告-大模型研究框架2025(附下载,58页)
就在这时,推理模型崭露头角,OpenAI 发布的 o1-preview 仿佛一束曙光,将 AIME 2024 模型回答准确率从 GPT4o 的 13.4% 大幅提升至 56.7%,为大模型的未来发展指明了新的方向 —— 向 AGI(通用人工智能)迈进。2017 年,Transformer 架构的出现无疑是 NLP(自然语言处理)领域的一颗重磅炸弹,它凭借自注意力机制和前馈神经网络层,打破了传统 RNN 架构在处理长文本时的诸多限制,为模型性能的提升打开了新的大门。在国内,大模型的竞争同样如火如荼。
2025-04-30 22:57:20
597
原创 Embodied X | 生成式AI对物理世界的四维重构 - 具身智能论坛回顾
刘怀宇总分享了英诺天使基金深度联动清华生态的成果。作为1989级清华计算机系校友,刘怀宇先生目前主导英诺天使基金投后业务及创新生态建设,重点关注新一代信息技术等领域早期投资。他表示,近年清华在大模型、机器人等领域涌现出大批优质项目,而英诺天使基金凭借“清华基因”——核心团队均为清华校友,已系统性布局多个前沿项目,包括程昊团队“加速进化”(具身智能)、自动化系“千诀科技”(机器人大脑),以及亦庄机器人马拉松亚军项目“小顽童”背后的松延动力等。今日出席的鹿明机器人项目亦为该基金投资案例。
2025-04-30 22:56:20
610
原创 Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
因此,根据梯度下降算法,这在数学上显然是不正确的,但它是有效的。因此,他们的做法是保存所有内部状态,然后使用一种名为注意力的机制去回顾经历过的所有状态,然后看它们哪些部分与当前执行的任务(通常是预测下一 token)最相关。这样一来,你可以得到擅长不同任务的专家,比如有的擅长处理时间和日期,有的擅长地理位置,有的擅长生物学。实际情况也证明了这一点。部分原因是,他们最初在机器翻译任务上证明,用少 10 到 100 倍的计算量和小 10 倍的模型,就可以获得比当时最先进的 LSTM 或其他模型架构更好的性能。
2025-04-30 22:55:22
410
原创 荣登《Scinece》正刊!物理信息深度学习取得新突破!
该模型结合了PI-BasisNet和深度生成模型,通过学习基函数和系数分布来生成满足物理规律的新解,有效解决了高维问题中的计算挑战。它通过双网络框架(运动检测网络和运动校正网络)结合空间域和k空间域的信息,无需显式估计运动参数,即可有效去除运动伪影,提升图像质量。2025年04月30日 19:03。
2025-04-30 22:50:25
394
原创 刚刚DeepSeekAI开源了新模型:数学理论证明大模型DeepSeek-Prover-V2,让AI帮助数学家证明数学理论!
DeepSeek-Prover-V2 的发布,意味着 AI 在严谨推理与自动定理证明领域的能力正在不断逼近人类专家。我们期待:更完整的技术报告和性能指标;是否继续开源,推动行业标准化与普惠发展。📌 更多关于 DeepSeek-Prover-V2 的模型信息和开源地址,请访问 DataLearnerAI 模型卡片:你对 DeepSeek-Prover-V2 最期待的是什么?欢迎留言讨论!
2025-04-30 22:44:53
456
原创 通向AGI的四层阶梯
学术头条 2025年04月24日 19:59 北京作者:孙浩原文链接:https://zhuanlan.zhihu.com/p/18963820366898101972025 年伊始,RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,David Silver 去年在 RLC 上说 “(RL 受关注的程度)终将跨越 LLM 带来的低谷”,竟然来得如此之快。PhD 这些年即将告一段落,这几个月梳理先前的工作,准备 Tutorial,借鉴了不少去年从 R
2025-04-30 22:40:29
793
原创 阿里Qwen3真实测评:MCP、推理、数学、代码、文学...(OpenAI、DeepSeek、Claude等六家PK)
所以我就想从网页版、本地版、API版,在代码、数学、逻辑推理、文本创作、MCP调用等多个方面,让 Qwen3 PK 每个领域的高手,包括 DeepSeek R1/V3、OpenAI o1/GPT4o、Claude3.7、Gemini等,从真实的案例里看出 Qwen3 真正擅长的。我仔细盘算了一下,“昨天的后天”和“明天的前天”是同一天?2、3、4月份,Qwen1.5先后开源了0.5B、1.8B、4B、7B、14B、32B、72B、110B足足八个不同规模模型。
2025-04-30 22:29:43
533
原创 Cursor 的深层能力:超越代码编辑的思考
原创 whyiyhw 积木成楼 2025年04月26日 14:29 湖北许多人将 Cursor 主要视为一个集成了 AI 的代码编辑器。这一定位无疑抓住了它的核心优势——在编程任务上提供显著的效率提升。然而,若仅限于此,可能就忽视了 Cursor 设计中蕴含的其他重要能力和潜力。本文旨在探讨 Cursor 在代码编辑之外的一些功能特性,特别是其模型上下文协议(MCP)所带来的扩展性,希望能为理解这款工具提供一个更全面的视角。在深入探讨其核心 AI 机制之前,值得先留意 Cursor 继承并强化的一些基础编辑
2025-04-30 22:24:11
578
原创 DeepSeek-Prover-V2-671B模型和大白话论文解读(AI版)
这篇文章的研究背景是现代数学中证明的复杂性不断增加,导致同行评审中的错误难以被发现。为了解决这些问题,形式化数学语言如Lean、Isabelle和Coq被开发出来,使得计算机可以验证证明。然而,编写形式化证明需要大量专业知识,自动化定理证明的重要性因此日益增加。
2025-04-30 22:22:26
625
原创 NotebookLM 音频“说中文”了,AI帮助积累资料、生成大纲、挖掘洞见,网友:被低估的神器。
就算你的资料是多种语言混杂的,或者你想用非英语的语言听总结,现在都行了。PDF 文件、网站链接、YouTube 视频、音频文件、Google 文档、Google 幻灯片,各种格式通吃。S 全屏播放 full_screen_mv已关注关注重播 分享赞。
2025-04-30 22:21:38
323
原创 Accelerating Antimicrobial Peptide Discovery with Latent Structure
抗菌肽(AMPs)是替代抗生素的一种有前景的治疗剂,能够通过破坏细菌膜来杀死细菌。深度生成模型已被用于加速潜在药物分子的发现,但在AMP发现中,现有研究主要关注肽序列属性,忽略了重要的结构信息。。
2025-04-30 11:45:34
591
原创 为什么非要使用Agent?它对业务有什么实际好处?
在讨论“为什么要做Agent”之前,我们需要先明确Agent是什么。很多人可能会简单认为Agent就是“大模型调用API”,但这只是最基础的理解,真正的Agent概念更深入。在国内,不少厂商把Agent翻译成“智能体”,但严格来说,这个词并不能完全体现Agent的含义。如果查英文词典,“Agent”的核心意思是“代理让大模型替代人类的行为,通过调用某些工具或功能来完成特定任务的能力。因此,国外用“Agent”这个词来指代大模型使用工具帮人干活的流程,其实相当贴切。符合这个定义的,都可以算作Agent。
2025-04-29 16:52:34
692
原创 阿里巴巴集团总裁离职
瓶装咖啡,成为两大饮料巨头成功合作的经典案例。百事可乐(大中国区),担任百事可乐大中华区。阿里巴巴集团、VML中国、宝洁、信超媒体。在阿里巴巴期间,先后担任集团战略发展总裁。星巴克咖啡合作,在国际市场上推出星冰乐。2025年04月29日 15:17。带领全球第一果汁品牌纯果乐-果缤纷。,其主导打造的“淘宝造物节”和“2016加入阿里巴巴集团,在百事可乐工作期间,他还在。”已成为行业标杆案例。天猫双11全球购物节。带入中国,2007年。
2025-04-29 16:29:26
221
原创 两周独立开发游戏Demo实录:AI工具配合Unreal如何让我一人完成全流程
当下的游戏开发领域中,随着人工智能(AI)工具的引入,独立开发者的工作效率得到了显著的提升。于是,在本次实践中,我结合Unreal Engine 5与多种AI工具,利用两周时间,成功构建了一款轨道光枪射击游戏的原型。从前期的策划构思、美术资源生成,再到程序逻辑实现和音频配乐创作,开发的每个环节都由AI协助。而我作为唯一的开发者则可以专注于高效产出游戏内容,从而避免了创作思路因繁琐细节而被频繁打断。以下是本次制作原型流程的快剪视频,完整流程视频在文章最后。,时长01:43AI相关工具概览。
2025-04-29 14:11:16
541
原创 OTC:优化工具调用的强化学习框架
更令人担忧的是,研究者发现随着模型规模增大,AI反而更容易过度依赖外部工具,形成一种"认知卸载"现象 - 即模型越来越依赖工具而不是发挥自身的推理能力。研究团队提出的OTC-PO框架基于一个关键假设:对于每个问题和每个模型,存在最优工具调用次数,即解决问题所需的最少工具调用次数。通过引入创新的工具集成奖励机制,OTC-PO同时考虑了回答的正确性和工具使用效率,鼓励模型用最少的工具调用得出正确答案。(3)能力提升:在约10%的案例中,OTC-PO模型能够用更少的工具调用得出正确答案,而基线方法则失败。
2025-04-29 10:08:38
818
原创 图解Vllm V1系列1:整体流程
在本文开始前,插一个题外话,简单解释下今年我很久不更新的原因:我在xhs等平台上,大量发现盗取我的文章进行售卖的行为,这点让我非常愤怒且无能为力,也确实打击到了我写blog的热情。一番考虑后,我想让自己更轻松一些,同时也花更多时间在写代码上,所以我放慢了更新频率(但不会因此改变更新的质量)。如果大家在别的平台上也看见这种盗取售卖的行为,欢迎和我说,我要去对线!!现在继续回到正文内容,vllm v1的系列文章基于的代码版本是vllm 0.8.2。
2025-04-29 00:35:56
936
原创 人工智能“疯狂”的一周:OpenAI、Grok、Google、Nvidia、Claude、Amazon 都发布了大量更新
Canva 的新 Visual Suite 2.0 带来了强大的 AI 功能,让您可以在一个设计中创建文档、演示文稿、网站等。这是该公司成立以来最重要的产品发布。他们使用的是谷歌的 Gemini 模型,由 Nvidia 的新款 Blackwell 芯片提供支持——将强大的 AI 推理与高性能本地计算相结合。它从不同角度审视您的查询,进行研究,并在几分钟内提供答复 - 为您的日常任务提供深度和速度的完美结合。13. Tavus 推出了一种新的、先进的唇形同步模型,为语音到视频的创作带来了无与伦比的真实感。
2025-04-29 00:33:29
866
原创 第7款手游下载破亿,这家厂商靠IAA年入20亿元
在今天的移动市场,一款产品要想杀出重围,难度是越来越大了。而即便游戏玩法足够差异化、具备破局的潜力,仍需要配套相当规模的买量投入。不过,像Miniclip这些头部休闲厂商则认为,长青游戏以及IAA游戏,是身处当下很好的应对之策。
2025-04-29 00:31:29
840
原创 教育部新增游戏专业,腾讯46款产品亮相,光线传媒涉足3A游戏研发|陀螺周报
数据显示,发售当晚,《上古卷轴4RE》的Steam在线玩家峰值便超过了18万,次日攀升至19万,在本年度发售的所有单机游戏中排名第2位,仅次于《天国:拯救2》的25.62万人。本次共有118款国产游戏获得版号,申报类别划分为「移动」的有64款,「移动-休闲益智」的有46款,「移动、客户端」的有4款,「移动、客户端 、网页」的有2款,纯「客户端」的2款。2025年一季度实现营收3.59亿元,同比增长7.29%,归属于上市公司股东的净利润为2,470.35万元,同比大幅增长43.74%,进入稳健发展阶段。
2025-04-29 00:30:25
807
原创 浙大+阿里提出快慢思考新方法:在多模态Reasoning上准确率涨10%,长度砍半
推理长度比传统“慢思考”方法减少32.7%-67.3%(如下表中R1-OneVision长度692 vs. FAST仅204)也面临同样问题:无论问题难易,它们都会生成冗长的推理过程,导致效率低下,甚至因“话多必失”降低准确率。这可能成为下一阶段的研究重点。:对难题自动延长推理(如几何题硬核模式长度+60%),简单题则“秒答”:通过模型多次尝试的正确率计算(公式:),实时判断题目难度。:训练前期专攻难题(“慢思考”),后期专练速答(“快思考”)难题(如微积分):松开刹车(β趋近0.001),鼓励探索。
2025-04-29 00:25:37
893
原创 微软重磅官宣:「AI智能体」同事连夜上线!预言25年人类同事成稀有物种
前沿公司,要满足三个条件:围绕「智能」按需构建由人类和智能体组成「混合」团队每一名员工都将成为「智能体」主管领导者在「智能体老板思维模式」的每一项指标上都领先于员工,其中对人工智能智能体的熟悉程度存在27个百分点的差距根据微软的预测,未来的两到五年内,每一家公司都将转变为「前沿公司」。82%的领导者认为,今年是重新思考关键战略和运营的「关键」年份。而81%的领导者表示他们预计在未来12到18个月内,智能体将「适度或广泛」地加入到企业的AI战略中。
2025-04-29 00:23:53
739
原创 扎心!刚评上院士,就被曝十余篇论文造假!6篇论文已被撤
著名神经科学家Berislav V. Zlokovic,来自美国南加州大学(USC),是国际公认的阿尔茨海默病和中风研究领域的领导者,开创了周细胞(一种围绕大脑毛细血管并帮助维持血脑屏障的细胞)研究的先河。举报者用113页的资料,列出的35篇造假论文和2份造假的二期临床试验数据,其中11篇论文的发表时间超过 20 年。总的来说,不管哪个科研领域,有一定学术成就的人,只要是沾上点学术造假的污点,可能就是功亏一篑,有时候甚至“城门失火殃及池鱼”,牵连更多的硕博生无法毕业......至此,这件事才得以平息。
2025-04-29 00:20:24
851
原创 GRPO vs SFT:强化学习提升大模型多模态推理泛化能力的原因研究
反之,RL训练以任务奖励为导向,相当于给定了清晰的目标Y(如解答正确与否),模型只需保留对预测Y有用的那部分信息,其他冗余细节则可被忽略。例如,在数学题场景下,正确答案的奖励使模型注重计算和逻辑,而不会像SFT那样去记忆特定解题步骤的表述方式或训练集中偏爱的符号说明等。综上,GRPO等强化学习方法之所以在多模态理解与复杂推理的OOD场景中比SFT具备更强泛化能力,源于训练范式的根本差异:前者通过奖励驱动模型自主探索并抽象出通用解题策略,配合灵活的目标设计和内在正则,促使模型学到更加本质和稳健的表示;
2025-04-29 00:17:56
832
原创 RL将死,In-Context RL是未来
然而我依旧还会说,在Evaluating Task上疯狂Overfitting的RL将死,Multi-Task Learning 的RL也将死。【RL将死,In-Context RL是未来】 原文:https://zhuanlan.zhihu.com/p/703999207。Reward敏感,调评估准则需要重训,模型不能根据评估准则改变即刻调整。有监督学习,无监督学习,模仿学习,强化学习,Exploration。我不仅要吹In-Context RL, 我还要吹。, Exploitation),完全。
2025-04-29 00:15:31
313
原创 端到端开源“音频+面部”驱动头像视频扩散模型ACTalker
数字人说话时眼神飘忽,像在背课文,面部动画像提线木偶,每个器官各动各的。多个分支,每个分支利用独立的驱动信号来控制特定的面部区域。有效结合音频信号与面部特征令牌,确保自然表情和精确嘴型同步,且通过面部掩码作为音频掩码,音频驱动方式融合几乎所有面部特征。动作并减少伪影,同时呈现自然的头部姿势和表情,区别于其他方法仅操控嘴形,其他区域保持静止。,一个端到端的视频扩散框架,支持多信号控制和单信号控制,用于对话头视频的生成。在推理时,可以手动修改门控状态,以启用单一信号控制或多信号控制。
2025-04-29 00:13:49
249
原创 深度丨昆仑万维2024财报解读!中国AI出海“卷王“如何用91%海外收入征服全球?
这种"全球化思维,本地化运营"的战略,不仅为中国数字经济出海提供了可复制的样本,更预示着AI产业竞争的新方向——技术可以追赶,但对用户需求的精准把握才是真正的核心竞争力。2024年,公司推出的“天工4.0”版本采用MoE(Mixture of Experts)架构,显著提升了复杂任务处理与多模态交互能力,支持超长上下文窗口,在多个领域实现性能突破,堪称“既能写论文,又能拍短剧”的全能选手。在全球AI产业的新赛道上,昆仑万维追求的不仅是短期的增长速度,更是长期的技术引领力和产业影响力。
2025-04-29 00:11:40
855
原创 从论文中积累复现 R1 的 insight
而且,通常 response lenght 越长的回复,准确性越低,可能是因为response 越长,代表这题越难,自然准确率就越低了,对“有效推理”的理解应该是模型自己学会了这些难度的题要用多少推理来处理。模型在训练前已经有一定的复杂推理行为(如反思、验证、策略探索等),而且在后续的训练过程中,推理能力的提升是渐进过程,不会突然有个拐点 emerge 出突飞猛进的推理能力。那就没必要用强制的手段,让模型强行推理了,一切都最好让模型自己习得,设置为适当的 reward 后,就不要管了。
2025-04-29 00:07:58
451
原创 Dia-1.6B: 开源TTS领域的革命性新星
与传统TTS模型不同,Dia-1.6B 能直接从文本转录中生成高度逼真的对话,捕捉到自然交谈中的细微差别,包括语调变化、情感起伏和自然的节奏感。在官方演示中,有一段关于"着火了"的对话,AI自动以紧张急促的语气表达,这种情境感知能力是大多数TTS模型所不具备的。他们的灵感来源于谷歌的。与需要庞大参数量和算力支持的大型商业模型相比,Dia-1.6B证明了"小而美"的AI模型同样可以实现惊人的效果。等标签时,它会生成真实的笑声或咳嗽声,而不是简单地念出"哈哈"或"咳咳",这是其他模型所不具备的能力。
2025-04-29 00:05:16
930
原创 多节点训练 veRL
Ray 2.20及以上版本在当前环境中已弃用,且低于 2.40 的 Ray 版本与当前版本的 Verl 不兼容。如果您想在 AMD 集群上使用 Docker/Podman 容器运行 slurm 的多节点训练,可以使用以下脚本。请按照扩展的安装说明进行操作,然后使用您之前获取的仪表板 URL 添加您的集群。我们强烈建议您在多节点训练中从仪表板查看作业详细信息,因为它提供了更结构化的方式来查看作业信息。配置断点在代码中设置 breakpoint(),并将作业提交到集群。在代码中设置断点,并将作业提交到集群。
2025-04-29 00:04:06
611
原创 EasyR1:高效、可扩展、多模态强化学习训练框架
我们正在努力减少 RL 训练中的 VRAM,LoRA 支持将在下一次更新中集成。ValueError:图像特征和图像标记不匹配:标记:8192,特征 9800。如果您在连接 Hugging Face 时遇到问题,请考虑使用。这些功能目前暂时被禁用,我们计划在未来的更新中逐一修复它们。本项目不提供监督微调和推理的脚本,如有此类需求,建议使用。有关多节点训练和 Ray 调试器的更多详细信息,请参阅。如果您想使用 SwanLab 记录器,请考虑使用。
2025-04-28 10:28:29
558
原创 ICBDE-DeepMind and Its AlphaGo Zero AI
这篇文章介绍了DeepMind公司及其在机器学习和人工智能领域的成就,特别关注了AlphaGo Zero的成功。
2025-04-28 10:21:52
582
原创 硅谷教父 Paul Graham:创造,才是人生最高级的活法
好文编译2025年04月02日 13:00陕西人最重要的使命,除了对他人与世界的责任,就是做一个创造者 —— 创造那些原本不存在,但值得存在的新事物。因为唯有创造,才能真正体现人类智性的最高价值,并让我们成为独一无二的自己。保罗·格雷厄姆 (Paul Graham) 是硅谷著名创业孵化器Y Combinator(孵化出 Airbnb、Reddit、Dropbox 等独角兽公司)的联合创始人,同时也是畅销书《黑客与画家》的作者。他以独特且深刻的思考方式,广泛影响着全球科技创业圈与创新文化。
2025-04-28 10:13:46
970
原创 TPAMI 2025 | 基于高效脉冲发放近似训练的脉冲驱动 Transformer 扩展方法
受大脑启发的脉冲神经网络(SNNs)有望成为传统人工神经网络(ANNs)的低功耗替代方案。本研究致力于解决实现这一愿景过程中的两大主要挑战:SNNs与ANNs之间的性能差距,以及SNNs高昂的训练成本。作者发现了脉冲神经元因二进制发放机制存在的内在缺陷,并提出了一种基于整数训练和脉冲驱动推理的脉冲发放近似(SFA)方法。该方法优化了脉冲神经元的脉冲发放模式,提升了训练效率,降低了功耗,提高了性能,使网络更容易扩展,还能更好地利用神经形态芯片。
2025-04-28 00:57:11
782
11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评
2024-10-22
10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类
2024-10-21
Multimodal Representation for Neural Code Search
2024-10-21
[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs
2024-10-21
avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip
2020-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人