- 博客(69)
- 收藏
- 关注
原创 MeanFlow:何凯明新作,单步去噪图像生成新SOTA
这篇文章介绍了MeanFlow,这是一种新型的一步生成模型框架,用于生成建模。与传统的流匹配方法不同,MeanFlow通过引入平均速度的概念来表征流场,而不是使用瞬时速度。平均速度定义为两个时间步长之间的位移与时间间隔的比值,这一定义使得模型能够在单次函数评估中完成从先验分布到数据分布的转换,显著提高了生成效率。文章详细阐述了MeanFlow模型的理论基础,包括平均速度与瞬时速度之间的关系,以及如何通过神经网络训练来近似平均速度场。
2025-06-09 22:13:37
811
原创 西瓜书《机器学习》全网最详细解读 第四章:决策树
决策树(decision tree)是一类常见的机器学习方法,是一种基于树结构的监督学习算法,广泛应用于分类和回归任务中。
2025-06-09 22:10:04
825
原创 MySQL:零基础入门(狂神版)
数据库是一种用于存储、组织、管理和检索数据的系统化集合。它按照一定的结构和规则将数据组织起来,以便用户能够高效地访问和操作数据。数据库的核心目标是提供一种可靠、高效且易于管理的方式来处理大量数据。数据库的主要功能包括数据存储、数据检索、数据更新和数据管理。数据存储是数据库的基本功能,它将数据以结构化或非结构化的方式保存在存储介质中。数据检索则允许用户通过查询语言(如SQL)或API来查找特定的数据。数据更新功能使得用户能够插入、修改或删除数据,以保持数据的时效性和准确性。
2025-05-28 22:10:51
971
1
原创 RoboFactory:多具身智能体协同框架(论文代码详解)
这篇文章提出了一种创新的框架,旨在通过引入组合约束来解决多智能体系统中的协作问题,并自动生成安全、高效的训练数据。文章的核心贡献在于设计了一种能够有效管理多智能体协作的框架——RoboFactory,该框架通过逻辑、空间和时间三个维度的约束,确保智能体在执行任务时的行为既安全又高效。RoboFactory框架包含两个核心模块:RoboBrain和RoboChecker。RoboBrain负责根据全局任务描述、先前的子目标和约束违规反馈,生成每个智能体的下一个子目标和文本形式的组合约束。
2025-05-28 21:06:40
860
原创 西瓜书《机器学习》全网最详细解读 第三章:线性模型
机器学习》,又称西瓜书,是南京大学教授周志华教授编著的一本机器学习领域的经典教材。《机器学习》系统地介绍了机器学习的基本理论、常用算法及其应用。全书内容丰富,涵盖了机器学习的多个重要方面,包括监督学习、无监督学习、强化学习等主要学习范式。《机器学习》适合计算机科学、人工智能、数据科学等相关专业的本科生、研究生以及对机器学习感兴趣的自学者。无论是初学者希望系统地学习机器学习的基础知识,还是有一定基础的研究人员和从业者希望深入了解前沿技术,这本书都能提供有价值的参考。在接下来的日子里,我将。
2025-05-25 19:52:01
742
原创 LSNet:以小见大,CVPR2025全新轻量级主干网络
本文提出了一种新型的轻量级视觉网络架构——LSNet(Large-Small Network),旨在通过高效的感知和聚合策略,在有限的计算成本下实现高性能的视觉信息处理。LSNet的设计灵感来源于人类视觉系统的“看大,聚焦小”策略,通过结合大核感知(Large-Kernel Perception, LKP)和小核聚合(Small-Kernel Aggregation, SKA)的LS卷积操作,实现了对广泛上下文信息的高效捕获和对小范围特征的精细聚合。大核感知(LKP)
2025-05-23 16:46:08
1179
原创 OverLoCK:先概览,再聚焦。CVPR2025全新主干网络
作者提出了一种深度阶段分解策略(Deep-stage Decomposition Strategy, DDS),该策略受人类视觉系统“先概览后细看”(Overview-first-Look-Closely-next)机制的启发,将卷积网络(ConvNet)分解为三个协同工作的子网络:Base-Net(基础网络)、Overview-Net(概览网络)和Focus-Net(聚焦网络)。这种设计旨在通过动态的自上而下的语义引导来增强特征图和卷积核权重,从而提高模型性能。
2025-05-23 16:45:26
1106
原创 SAGE:基于SAM进行二级蒸馏的多模态图像融合新方法,CVPR2025
目前将SAM整合用于低级任务的方法通常需要在推理时使用完整的SAM,这在实际应用中显得过于不切实际。为了解决这些问题,作者提出了融合方法SAGE,该方法完全整合并提炼了来自SAM的语义先验。
2025-05-20 21:00:15
757
原创 MONA:5%参数微调超越全量微调,CVPR2025新型视觉适配器
文介绍了一种名为Multi-cognitive Visual Adapter(Mona)的新型调优方法,通过仅调整预训练模型中约5%的参数,成功超越了传统的全量微调方法,为视觉识别任务的高效迁移学习提供了新的解决方案。实验结果表明,Mona在多种视觉任务上均实现了超越全量微调的性能表现,同时显著减少了计算成本和存储需求。
2025-05-20 20:58:18
1223
1
原创 Matrix-Game:键鼠实时控制、实时生成的游戏生成模型(论文代码详细解读)
Matrix-Game是一种专为可控游戏世界生成设计的交互式世界基础模型,通过两阶段训练流程实现:首先进行大规模无标签预训练以理解环境,然后进行动作标记训练以生成交互式视频。研究者构建了Matrix-Game-MC数据集,包含超过2700小时的无标签游戏视频和1000小时的高质量标记片段,具有精细的键盘和鼠标动作注释。Matrix-Game采用基于参考图像、运动上下文和用户动作的可控图像到世界生成范式,拥有超过170亿个参数,能够精确控制角色动作和摄像机运动,同时保持高视觉质量和时间连贯性。
2025-05-16 17:31:24
919
1
原创 Qwen3技术报告解读:训练秘籍公开,推理与非推理模型统一,大模型蒸馏小模型(报告详细解读)
在本技术报告中,作者介绍了Qwen3,这是Qwen系列的最新版本。Qwen3具备思考模式和非思考模式,使用户能够动态管理用于复杂思考任务的token数量。该模型在包含36万亿token的庞大语料库上进行了预训练,能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在预训练和后训练模型的标准基准测试中均展现出强劲的性能,涵盖编码生成、数学、推理和代理等任务。在未来的研究中,作者将重点关注以下几个关键领域。作者将继续扩大预训练规模,使用质量更高、内容更丰富的数据。
2025-05-16 17:30:23
1219
原创 JavaScript零基础入门笔记:狂神版
JavaScript是一种高级的、基于原型的、多范式的编程语言,它具有动态性、弱类型和面向对象的特性。它最初是作为浏览器端的脚本语言被设计出来,用于增强网页的交互性,比如实现表单验证、动态更新页面内容、响应用户的鼠标点击和键盘输入等操作。随着技术的发展,JavaScript的应用范围已经远远超出了浏览器环境。在服务器端,通过Node.js这样的运行时环境,JavaScript可以用来构建高性能的网络服务器和后端服务,处理数据库操作、文件系统操作等任务。
2025-05-15 15:13:38
1049
原创 ICLR2025杰出论文揭晓!华人学者闪耀,大模型引领AI前沿!(3篇杰出论文详解)
ICLR 2025的杰出论文涵盖了大语言模型的安全对齐、微调学习动态以及知识编辑等多个关键领域。这些研究不仅揭示了当前大语言模型在安全性和性能优化方面存在的问题,还提出了创新性的解决方案。
2025-05-15 15:12:18
1190
原创 Kimi-Audio:Kimi团队开源最强音频大模型,横扫15项榜单,拿下第一!
Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器(Audio tokenizer),并设计了一种新型的基于LLM的架构,该架构以连续特征作为输入,以离散标记作为输出,并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个用于构建高质量和多样化后训练数据的管道。
2025-04-29 20:27:02
1179
原创 Qwen3:重磅开源,重夺开源第一!(包含详细使用教程)
Qwen3 代表了人类在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模,之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式,为用户提供了灵活控制思考预算的能力。此外,作者还扩展了对多种语言的支持,帮助全球更多用户。
2025-04-29 12:14:44
2781
2
原创 Java零基础入门:注解和反射
Java的注解和反射是两个强大的特性,它们共同为开发者提供了在运行时处理元数据的能力。注解是一种标记或元数据,可以附加到Java代码的元素上,如类、方法、字段等。反射是Java提供的一种机制,允许程序在运行时访问、检测和修改它本身的类和对象的信息。通过反射,程序可以创建对象、调用方法、访问字段,甚至可以获取注解信息。反射的核心是`java.lang.Class`类,它代表类和接口的运行时表示。通过`Class`对象,可以获取类的成员信息,包括字段、方法和构造器,并且可以获取注解信息。
2025-04-25 16:51:57
1032
原创 PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】
PDFMathTranslate 是一个用于科学 PDF 文档翻译及双语对照的工具,是一个功能强大且灵活的科学文档翻译工具,适合科研人员、学生和专业人士使用,能够有效提高文档翻译的效率和质量。核心功能保留格式:在翻译过程中,能够保留原文档中的公式、图表、目录和注释,确保翻译后的文档与原文在结构和内容上保持一致。多语言支持:支持多种语言的翻译,满足不同用户的需求。多种部署方式:提供命令行工具、图形交互界面以及容器化部署等多种使用方式,方便用户根据自身需求选择。
2025-04-25 16:50:28
1479
原创 CSS零基础入门笔记:狂神版
1.后代选择器(Descendant Selector)语法ancestor descendant { /* 样式规则 */ }作用:选择指定祖先元素内部的所有后代元素,无论它们嵌套在什么层级中。特点:作用范围最广,会选择所有符合条件的后代元素。2.子选择器(Child Selector)语法parent > child { /* 样式规则 */ }作用:选择指定父元素的直接子元素,不会选择更深层次的后代元素。特点:作用范围较窄,只选择直接子元素。3.
2025-04-21 14:31:41
957
原创 LightRAG代码详解
LightRAG是一种基于图结构和双层检索机制的检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在通过优化检索效率和知识表示,提升自然语言处理任务的性能。LightRAG的架构分为两个主要部分:基于图的索引阶段和基于图的检索阶段。在索引阶段,系统利用大型语言模型(LLM)从文本块中提取实体和关系,并构建知识图谱。该图谱通过去重和LLM增强分析,生成高效的索引键值对,便于后续检索。
2025-04-21 14:27:24
1553
原创 盘古-ultra:不用英伟达GPU,华为发布全新大模型
盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理能力。
2025-04-17 15:12:35
1225
原创 基于LightRAG进行本地RAG部署(包括单卡多卡本地模型部署、调用阿里云或DeepSeekAPI的部署方法、RAG使用方法)
本地部署RAG教程
2025-04-17 15:09:14
2740
2
原创 西瓜书《机器学习》全网最详细解读 第一章:绪论
《机器学习》,又称西瓜书,是南京大学教授周志华教授编著的一本机器学习领域的经典教材。在接下来的日子里,我将每周精心打磨一章内容,全方位、多角度地为大家剖析书中精髓。
2025-04-12 18:32:52
1267
2
原创 Seed-Thinking-v1.5:字节豆包新推理模型发布,200B参数战胜Deepseek
字节跳动旗下的豆包团队正式发布了其最新的推理模型——Seed-Thinking-v1.5,该模型在多个方面展现出了明显的技术优势。这一进展不仅推动了推理模型的发展,还引发了同行业内的高度关注,标志着AI技术在通用推理能力上的一个重要里程碑。
2025-04-12 18:29:30
1222
原创 HTML零基础入门笔记:狂神版
HTML,即超文本标记语言(HyperText Markup Language),是用于创建网页的标准标记语言。它通过一系列的标签和元素来定义网页的结构和内容,这些标签告诉浏览器如何显示页面上的文字、图片、链接、表格等内容。HTML文档由一系列嵌套的元素组成,每个元素都有其特定的语义和功能。例如,<html>标签是文档的根元素,它包含了整个页面的内容;<head>部分用于定义文档的元数据,比如标题、字符集、链接外部资源等;而<body>部分则包含了用户可以看到的页面内容,如文本、图片、表单等。
2025-04-06 20:04:38
905
原创 LLaMA 4深夜发布:重夺开源第一!首个使用MoE架构的LLaMA模型
Meta公司于2025年4月6日发布的Llama 4模型系列无疑为这场竞赛注入了新的活力。作为Meta首个基于混合专家(MoE)架构的模型系列,Llama 4以其卓越的性能、创新的设计和极高的性价比,迅速在开源模型领域崭露头角,甚至在某些方面超越了当前行业内的顶尖模型。这一系列的发布不仅标志着Llama生态系统进入了一个新的时代,也引发了整个AI行业对多模态模型和高效计算架构的广泛关注。
2025-04-06 20:02:06
1406
原创 DyT:何凯明LeCun联手,删除归一化层,性能不减速度反升!
DyT的提出具有重要的贡献和意义。首先,它提供了一种简单而有效的归一化层替代方案。传统的归一化层如Layer Normalization虽然在稳定训练和提升模型性能方面发挥了重要作用,但计算过程相对复杂,需要计算输入数据的均值和方差。DyT通过简单的α缩放和tanh函数操作,避免了这些复杂的计算,从而显著提高了训练和推理的效率。其次,DyT在多种任务和模型架构中表现出色。实验结果表明,使用DyT的模型在视觉、语言、语音等多个领域的任务中,都能达到甚至超过传统归一化层的性能,且几乎不需要调整超参数。
2025-03-26 20:29:34
1143
原创 VideoGrain:ICLR2025收录,无需训练,实现细粒度多层次视频编辑
提出了一种名为 VideoGrain 的零样本方法,用于实现多粒度视频编辑。该方法通过调节空间-时间注意力机制,为多粒度视频编辑提供了一种有效的解决方案。它不仅能够实现对视频内容的精确控制,还能够保持视频的原始结构和连贯性。这一方法为视频编辑领域带来了新的可能性,尤其是在需要对视频进行细粒度控制的应用场景中。
2025-03-26 20:24:13
916
原创 Qwen2.5-VL技术报告:多模态大模型的新SOTA!视觉理解能力全面超越GPT-4o
Qwen2.5-VL,这是一个最先进的视觉语言模型系列,在多模态理解和交互方面取得了重大进展。Qwen2.5-VL增强了视觉识别、对象定位、文档解析和长视频理解能力,在静态和动态任务中都表现出色。其原生的动态分辨率处理和绝对时间编码能够稳健地处理各种输入,而Window Attention在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL迎合了从边缘AI到高性能计算的广泛应用。
2025-02-24 16:24:30
2553
原创 MoBA:kimi团队发布超强注意力方法,让大模型的上下文理解长度突破10M!
本文介绍了一种名为 Mixture of Block Attention (MoBA) 的新型注意力机制,旨在解决大规模语言模型(LLMs)在处理长序列时面临的计算复杂度问题。MoBA作为一种创新的注意力机制,为解决大规模语言模型在处理长序列时的计算瓶颈提供了一种新的思路。
2025-02-22 14:30:07
1099
原创 原生稀疏注意力:Deepseek又一重磅开源!实现高效的大模型超长文本建模!
这篇论文介绍了一种名为NSA(Native Sparse Attention)的新型稀疏注意力机制,旨在解决长文本建模中标准注意力机制计算成本高昂的问题。NSA通过结合算法创新和硬件优化,实现了高效的长文本建模,同时保持了模型的性能。NSA作为一种硬件对齐的稀疏注意力架构,通过分层的稀疏策略和可训练的设计,在保持全注意力性能的同时,显著降低了计算成本,为长文本建模提供了一种高效且实用的解决方案。
2025-02-22 14:27:58
1307
原创 Step-Video-T2V:阶跃星辰发布最强开源视频生成模型(论文详解)
本技术报告介绍并开源Step-Video-T2 V,这是一种最先进的预训练文本视频生成模型,具有30 B参数,深度压缩的Video-VAE,用于视频生成的DPO方法,以及生成长度高达204帧视频的能力。作者全面概述了预训练和后训练策略,并介绍了Step-Video-T2 V-Eval作为评估文本到视频生成模型的新基准。当前文本到视频模型仍然面临巨大的挑战。首先,高质量的标记数据仍然是一个重大障碍。现有的视频字幕模型经常与幻觉问题作斗争,并且人类注释昂贵且难以扩展。
2025-02-18 21:34:53
2903
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人