AkanthaWang-CSDN博客

原创解决 TensorBoard 启动报错：ModuleNotFoundError: No module named ‘pkg_resources‘

遇到缺失？别慌，大概率是setuptools版本太高惹的祸。

2026-05-26 17:44:53 107

原创【2026 CVPR】ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile

TIkFkk1nPredictUDWBT{(IkFkk1nPredictUDWB其中UDWBU, D, W, BUDWB分别代表上述四类上下文信号，IkI_kIk是意图，FkF_kFk是对应的函数序列。对和MiMo-VL-7B进行了全参数微调。训练模型同时输出“自然语言建议”和“执行函数序列”，研究发现这种联合输出（逻辑支架）能显著提升成功率并降低错误触发率。

2026-04-30 19:49:34 23

原创 MySQL 与向量数据库的核心区别：从结构化数据到语义搜索

在数据技术不断演进的今天，传统数据库已经无法完全满足人工智能时代的需求。尤其是在大模型（LLM）和语义搜索兴起之后，一类新的数据库——向量数据库，逐渐成为热门选择。那么，经典的 MySQL 与向量数据库到底有什么本质区别？它们是否会相互取代？

2026-04-29 09:42:05 433

原创【2025 CVPR】EMOE: Modality-Specific Enhanced Dynamic Emotion Experts

摘要： EMOE提出了一种新颖的多模态情感识别方法，针对现有融合方法的两大核心问题：模态平衡困境和模态特殊性丧失。通过专家混合机制(MoME)实现样本级动态融合，并引入单模态蒸馏(UD)保留各模态的独立预测能力。在CMU-MOSI/MOSEI等基准测试中，EMOE显著优于现有方法，最高提升1.5%准确率。其创新性体现在：1）自适应权重路由网络，2）知识蒸馏保持模态特异性，3）良好的跨任务泛化性。代码已开源，为多模态学习提供了新思路。

2026-04-28 20:17:19 71

原创从 Chain-of-Thought 到 Graph of Thoughts：LLM 推理范式的演进

CoT 让模型“会解释”，ToT 让模型“会探索”，GoT 让模型“会思考”。

2026-04-27 20:36:52 380

原创 Prompt Engineering、Context Engineering、Harness Engineering三者之间的区别

👉 重点：你给模型加了额外上下文（RAG / memory / docs）👉 重点：不只是一次调用，而是一个流程（带搜索 + 校验 + 兜底）👉 重点：你写了什么 prompt。

2026-04-27 19:27:19 538

原创服务器 CUDA版本升级指南

检查软链接：如果您的系统中安装了多个版本的CUDA，可能需要更新软链接/usr/local/cuda指向新版本的CUDA。反应的是显卡驱动 (Driver) 能够支持的 CUDA 最大版本，它决定了你能运行多高版本的 Toolkit，但并不强制要求你的项目环境必须使用这个最高版本。查到的 CUDA 版本（驱动支持的最高版本），并不等同于当前环境实际调用的 CUDA Toolkit 版本（这样，/usr/local/cuda就会指向CUDA 12.4的安装目录。安装目标 CUDA 版本。

2026-04-18 21:54:58 302

原创 flash-attn安装指南

的作用是在不牺牲模型精度的前提下，让注意力机制（Attention Mechanism）跑得更快、更省内存。核心痛点：传统 Attention 需要生成巨大的N×NN \times NN×N矩阵，导致 GPU 显存频繁在“慢速大内存 (HBM)”与“快速小内存 (SRAM)”间搬运数据。GPU 算力极强，但因为忙着搬数据，大部分时间在“空转”。核心方案将矩阵切成小块，在高速 SRAM 中完成计算，无需回写到慢速内存。实时处理数值，省去保存完整中间矩阵的步骤。

2026-04-18 20:59:57 671

原创【2026 ICLR】MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in MLLM

一个专门用于评估多模态大语言模型（MLLMs）情感智能的综合基准测试。

2026-04-14 14:17:23 75

原创 Git使用

（保留暂存区）或默认不写（保留工作区）。中指定的文件，不会出现在。在文件中添加需要忽略的内容。之后，Git 会自动忽略。先在本地创建对应分支。（彻底回退，谨慎用）

2026-04-10 20:20:33 136

原创 Vue 渲染 Markdown 完整指南

在开发 AI 对话应用、技术文档站点或博客系统时，经常需要在 Vue 中渲染 Markdown 内容。本文总结了 3 种主流方案，从轻量级到专业化，帮你快速选型并落地。核心修正：此方案主要用于纯前端渲染。如果是 Nuxt.js 等 SSR 项目，请改用或。🚀 方案二：专业解析 (markdown-it)主要特点：💬 方案三：AI 流式对话 (Vue Stream Markdown)逻辑优化：2. 封装流式组件🛡️ 关键注意事项 (SSR 与安全)SSR (Nuxt

2026-04-10 14:48:19 303

原创【2026 AAAI】Causal-ERC: A Multimodal Framework with Causal Prompting for Emotion Recognition in Conve

IEMOCAP：包含演员表演的剧本对话，情感标签包括快乐、愤怒、中性、悲伤、兴奋和沮丧。MELD：源自美剧《老友记》的多方对话数据集，包含中性、惊喜、恐惧、悲伤、快乐、厌恶和愤怒等标签。模态组成：每个对话切片（Utterance）均包含文本（Textual）音频（Acoustic）和视觉（Visual）三种特征。

2026-04-08 19:26:15 103

原创【2026 AAAI】Beyond Counting: Evaluating Abstract and Emotional Reasoning in Vision-Language Models

由于 EmojiGrid 的图像是由表情符号（Emoji）组成的，这些符号具有“超越语言”的通用性（例如，全世界的人都能看懂“😢”代表悲伤）。：设计上兼顾了各类任务的比例，防止模型通过过拟合某种任务来刷分。例如感知类占40.43%，关系类占32.12%，抽象类占27.44%。最近的视觉语言模型（如 Gemini 2.5 Pro, GPT-o1/o4-mini, GLM-4V-Thinking）都引入了。: 问题的 Token 长度分布呈现长尾模式，并通过 Emoji 占格子的比例来衡量视觉干扰度。

2026-04-08 19:00:16 138

原创【2026 arXiv】EVA: Efficient Reinforcement Learning for End-to-End Video Agent

研究在六个主要的视频理解基准测试上进行了评估，包括 LSDBench、VideoMME 和 LongVideoBench 等。采样效率：在采样困境基准（LSDBench）上，EVA 仅使用极小的视觉 Token 就达到了51.8%的准确率，优于使用大量 Token 的基线模型（如 Qwen2.5-VL 256 帧需要 166.4K Token）。长视频理解：在 VideoMME 等长视频任务中，EVA 展现出一致的领先优势，证明了其自适应关注关键片段的能力。推理能力。

2026-04-05 21:30:07 102

原创【2026 CVPR】Asking like Socrates: Socrates helps VLMs understand remote sensing images

研究旨在解决视觉语言模型（VLM）在处理遥感图像时的“虚假推理”问题。

2026-04-05 20:50:58 140

原创【2026 arXiv】OmniRAG-Agent: Agentic Omnimodal Reasoning for Low-Resource Long Audio-Video Question A

摘要：针对低资源环境下全模态大语言模型（OmniLLMs）处理长音视频问答的挑战，本文提出 OmniRAG-Agent 框架，结合检索增强生成（RAG）、多轮代理规划和强化学习（RL）。通过构建图像-音频双库实现细粒度检索，代理机制自主调用工具跨轮次整合证据，并采用组相对策略优化（GRPO）联合提升工具使用与答案生成能力。实验表明，该方法在多个基准测试中显著优于基线模型，尤其在细粒度检索、逻辑推理等任务上表现突出，且具备良好的泛化性和骨干网络迁移性。核心贡献包括验证低预算检索可行性、多步代理规划的有效性，

2026-03-12 21:09:59 359

原创【2025 arXiv】Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Lear

多轮交互机制 (Multi-Turn Interaction)Agent 首先对问题进行初步思考（Think），生成初始提示词发送给大模型。Agent初始的提示词模板：大模型返回响应后，Agent 结合历史记录进行进一步推理，并调整下一轮提示词。这种往复过程持续到 Agent 认为已准备好输出最终答案。双重约束奖励 (Double-constrained Reward)格式奖励 (RfmtR_{fmt}Rfmt：强制 Agent 遵循推理步骤，确保输出非空、可解析且格式正确。

2026-03-12 21:07:57 74

原创【2026 CVPR】EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in MLLM

本文提出EMO-R3框架，通过结构化情感思维(SET)和反射情感奖励(RER)增强多模态大语言模型的情感推理能力。SET引导模型分三阶段推理：情感触发点识别、人类情感反射和情感结论；RER则通过图文一致性和情感连贯性奖励实现自我评估。实验表明，该方法在EmoSet等数据集上优于现有技术，消融研究验证了各模块的有效性。主要贡献包括：1)结构化情感推理过程；2)反射式自我评估机制；3)在多个基准测试中的性能提升。该研究为提升AI情感理解能力提供了新思路。

2026-03-10 23:58:19 585

原创【2026 arXiv】VoiceSculptor: Your Voice, Designed By You

VoiceSculptor是一个开源的统一语音合成框架，通过自然语言指令实现精细化语音控制。其创新点包括：1）构建9,000小时多层次标注数据集，结合ASR、情感分析和韵律特征离散化；2）采用双阶段解耦架构（语音设计+克隆模块），基于LLaSA-3B和Cosy Voice2模型；3）引入思维链机制显式分解语音属性，并通过检索增强提升指令泛化能力。实验表明，该系统在中文指令基准测试中达到SOTA水平，消融实验验证了CoT和RAG的有效性。该工作填补了开源TTS系统在指令遵循能力上的技术空白。

2026-01-27 20:36:14 143

原创【2026 AAAI】ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration

本文提出ClearAIR框架，这是一种受人类视觉感知启发的全能型图像修复方法。传统方法存在空间均匀性假设局限和细节丢失问题。ClearAIR通过四个阶段模拟人类视觉处理：1）MLLM-IQA模块进行全局质量评估；2）语义引导单元定位受损区域；3）任务识别器判断退化类型；4）内部线索重用机制恢复微观纹理。实验表明，ClearAIR在去噪、去雾等任务中性能显著优于现有方法，特别是在复合退化场景下PSNR提升0.62dB。该框架创新性地融合了多模态评估和自监督学习，实现了更精准、更自然的图像修复效果。

2026-01-27 20:35:20 72

原创【2025 AAAI】C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake

针对AIGC检测中的泛化性问题，揭示了CLIP模型通过概念匹配而非真假语义进行伪造检测的内在机制。基于此，提出C2P-CLIP框架，通过类别通用提示词增强图像标题，并采用LoRA微调和双损失函数将概念注入图像编码器。实验表明，该方法在UniversalFakeDetect和GenImage数据集上分别提升12.41%和8.52%的性能，对扩散模型检测准确率达95.8%，优于现有方法。研究首次从语义维度解析CLIP检测机制，提出的方案在提升性能的同时保持推理效率，为AIGC检测提供了新思路。

2026-01-26 17:34:43 189

原创【2025 ACM MM】RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for E

RAIDX提出了一种结合检索增强生成（RAG）与强化学习（GRPO）的新型深度伪造检测框架，旨在解决现有方法解释性差、依赖人工标注的问题。通过视觉编码器提取特征，RAG模块检索相似图像统计真伪分布作为先验知识，GRPO算法则利用规则奖励引导模型生成精细推理（如灯光、纹理分析）和显著图，无需人工标注。实验表明，RAIDX在SID-Set基准上准确率达98.5%，零样本泛化能力优异（跨18个数据集平均准确率94.55%），且解释质量评分显著优于基线方法。其创新性在于首次将RAG与GRPO协同应用于伪造检

2026-01-26 17:32:58 201

原创【2026 Science Robotics】Learning realistic lip motions for humanoid face robots

哥伦比亚大学Yuhang Hu团队提出了一种创新方法，通过10自由度软体嘴唇设计和自监督学习算法解决仿人机器人嘴唇动作僵硬问题。研究采用变分自编码器(VAE)和面部动作Transformer(FAT)模型，将语音信号转化为机器人可执行的电机指令。实验表明，该方法在多语言测试中表现优异，用户偏好率达62.5%，显著提升了口型同步的真实感和流畅度。该成果突破了传统机械结构的限制，为跨越"恐怖谷效应"提供了有效解决方案。

2026-01-17 14:15:10 254

原创【2025 arXiv】NitroGen: An Open Foundation Model for Generalist Gaming Agents

NitroGen是NVIDIA提出的通用游戏智能体视觉-动作基础模型，通过利用带有手柄按键显示的游戏视频自动提取动作标签，构建了包含40,000小时、1,000+游戏的带标签数据集。该模型采用SigLIP 2视觉Transformer和扩散Transformer架构，在未针对特定游戏微调的情况下展现了出色的多任务性能。实验表明，NitroGen在战斗、导航等任务中表现优异，微调后任务成功率最高提升52%。研究还开发了通用模拟器和多游戏基准测试，为具身智能研究提供了重要基础设施。

2026-01-16 23:14:35 631

原创【Science Robotics】Human-robot facial coexpression

(人机面部共表情) 由哥伦比亚大学的 Yuhang Hu 等人发表在上。该研究提出了一种能够让机器人与人类做出面部表情（coexpression）的系统，而不仅仅是延迟模仿。

2026-01-16 22:56:44 931

原创【ML】语言模型 & GPUs

语言模型&GPUS

2026-01-15 22:02:13 576

原创【ML】强化学习 & Agents

强化学习&Agent

2026-01-15 22:01:33 747

原创【ML】机器学习进阶

机器学习进阶

2026-01-15 20:43:41 825

原创【ML】机器学习基础

机器学习基础

2026-01-15 20:41:42 689

原创【2025 arXiv】Beyond Artifacts: Real-Centric Envelope Modeling for Reliable AI-Generated Image Detect

在模拟真实社交媒体传播的 RealChain 数据集上，其他所有 SOTA 方法（如 AIDE, DRCT）的准确率都崩塌至 60% 以下，而。在严重退化和未知生成器场景下，REM 的性能大幅超越现有最先进方法（平均提升 7.5%，在 RealChain 上提升 18.4%）。它惩罚垂直于真实流形切线方向的剧烈变化，确保学到的边界是平滑且几何一致的。为了学习真实分布的边界，模型需要知道“什么样的数据最接近真实但又不是真实的”。强制模型提取的特征在“高质量原图”和“经过模拟退化的低质量图”之间保持一致。

2025-12-30 21:18:54 161

原创【2026 AAAI】Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Gene

设计了分别建模“跨块全局主题”和“块内高阶语义”的双超图结构，克服了现有 Graph-RAG 仅关注成对关系且缺乏统一主题组织的缺陷。开发了“主题驱动，细节召回”的两阶段检索策略，实现了不同粒度间的语义对齐，显著提升了生成内容的连贯性和质量。模拟人类自顶向下的信息处理路径，实现了从宏观语义理解到微观信息整合的分层生成建模。Cog-RAG 的设计灵感来源于人类处理复杂任务时的。

2025-12-29 22:22:39 101

原创【2026 AAAI】LIR3AG: A Lightweight Rerank Reasoning Strategy Framework for Retrieval-Augmented Generat

本文提出LIR³AG框架，旨在降低多跳问答任务中推理模型的计算开销。通过分析推理模型行为，发现基于上下文的推理策略更高效。LIR³AG框架包含检索器、重排序器和推理构造器三个模块，显式构建推理链供轻量级非推理模型使用。实验表明，该框架性能优于基线方法，同时显著减少98%的Token消耗和58.6%的推理延迟。代码实现通过构建FAISS向量索引实现高效检索，使用HuggingFace嵌入模型处理文本分块。

2025-12-29 20:36:54 292

原创【2025 arXiv】Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

本文提出DMLR框架，通过潜在空间优化实现高效多模态推理。针对当前方法存在的视觉交互不足或计算开销大的问题，DMLR创新性地引入可优化的潜在思考Token，并利用置信度指导视觉信息动态注入。实验表明，在7个基准数据集上，DMLR显著提升了推理性能（数学推理提升1.5%-4.5%），同时保持高效计算。该框架无需额外训练，实现了类似人类的动态视觉回溯能力，为多模态推理提供了新思路。

2025-12-23 14:51:44 175

原创【2025 COLING】What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instruct

系统性地揭示了“视觉推理任务”和“指令复杂度”是构建高效视觉指令集的关键因素。提出了一个“合成-复杂化-重构”的自动化数据生成 Pipeline，能够保证生成的指令既复杂又准确（低幻觉）。发布了ComVint数据集（32K 样本），在多个主流 MLLM 和 Benchmark 上验证了其优越性，证明了“少而精”（Less is More）的高质量复杂数据优于大规模简单数据。

2025-12-22 20:31:53 95

原创【2023 ICCV】EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes

EmoSet-118K 在 8 个情感类别上的分布非常均衡，每类图片数量在 10,660 到 19,828 之间，优于现有数据集。：通过深入分析验证了属性与情感的相关性，并设计了一个属性模块，证明了利用属性信息可以显著提升视觉情感识别的性能。在 EmoSet 上训练的模型在情感识别准确率上优于在其他数据集（如 FI, Emotion6）上训练的模型。：基于心理学研究，建立了一套可描述的视觉情感属性体系，有助于从更精细和可解释的角度理解视觉情感。为了验证属性的有效性，作者提出了一个。

2025-12-22 15:09:00 1503

原创【2026 AAAI】RoadSceneVQA:Benchmarking Visual Question Answering in Roadside Perception Systems for IT

本文提出了RoadSceneVQA，首个面向路侧场景的视觉问答数据集，包含34,736个QA对，涵盖感知和推理任务。通过CH-MA人机协作标注系统构建高质量数据。同时开发了RoadMind模型，采用CogniAnchor Fusion模块增强视觉-语言融合，并设计Assisted Decoupled Chain-of-Thought方法提升轻量级模型的推理能力。实验表明，RoadMind在多个基准测试中表现优异，尤其在推理任务上优于同类模型。该研究为路侧感知系统从单纯检测转向认知推理提供了新思路。

2025-12-20 20:40:50 400

原创【2025 NeurIPS】Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

提出Wan-Move方法，解决现有运动可控视频生成技术中控制粒度粗糙和可扩展性有限的问题。该方法基于14B参数的Wan-I2V模型，创新性地通过潜在轨迹映射和特征复制直接在潜在空间注入运动信息，避免了额外编码器的使用。研究构建了包含200万条视频的训练集和1018条视频的MoveBench评估集，采用混合标注流程确保标注精度。实验表明，Wan-Move在运动准确性和视觉质量上超越现有学术方法，并与商业系统Kling 1.5 Pro相当。该方法在保持架构简洁的同时展现了强大的扩展性，支持多对象运动、相机控

2025-12-17 22:02:37 105

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DH-Live部署与训练的相关代码

语音驱动数字人口型生成相关论文

Unity游戏开发-时空枪刃-双重现实

论文算法汇报PPT参考模板

空空如也