AIGC
文章平均质量分 95
Sherlock Ma
研究生在读,致力于分享编程技术。主要研究人工智能相关,包括大模型、AIGC等。偶尔也会更新Java内容
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MinerU:最强文档解析多模态大模型
MinerU是一款由OpenDataLab开源的多模态文档智能解析工具链,旨在将PDF等非结构化文档转化为机器可读的结构化数据。MinerU支持多种输出格式(Markdown/LaTeX/HTML/JSON),可处理复杂版式文档,并针对重叠元素设计了智能后处理算法。该工具填补了开源社区在高精度文档理解基础设施方面的空白,为构建高质量大模型语料库提供了工业级解决方案。原创 2025-10-03 16:43:49 · 3066 阅读 · 0 评论 -
Qwen-Image:通义团队新开源超强中文文生图模型(技术报告解读)
Qwen-Image是由阿里巴巴团队开发的200亿参数多模态图像基础模型,在复杂文本渲染和精准图像编辑方面取得突破性进展。该模型采用MMDiT架构,整合了多模态大语言模型Qwen2.5-VL和创新的变分自编码器,通过多阶段训练策略和严格的数据过滤流程,实现了卓越的生成能力。在公开基准测试中,Qwen-Image在文本到图像生成、中文文本渲染、图像编辑等任务上均达到SOTA水平,特别是在中文长文本处理和结构化视觉内容生成方面表现突出。原创 2025-08-11 17:27:22 · 3374 阅读 · 0 评论 -
Seedance:字节发布视频生成基础模型新SOTA,能力全面提升
Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速。原创 2025-06-12 21:56:41 · 4084 阅读 · 0 评论 -
Matrix-Game:键鼠实时控制、实时生成的游戏生成模型(论文代码详细解读)
Matrix-Game是一种专为可控游戏世界生成设计的交互式世界基础模型,通过两阶段训练流程实现:首先进行大规模无标签预训练以理解环境,然后进行动作标记训练以生成交互式视频。研究者构建了Matrix-Game-MC数据集,包含超过2700小时的无标签游戏视频和1000小时的高质量标记片段,具有精细的键盘和鼠标动作注释。Matrix-Game采用基于参考图像、运动上下文和用户动作的可控图像到世界生成范式,拥有超过170亿个参数,能够精确控制角色动作和摄像机运动,同时保持高视觉质量和时间连贯性。原创 2025-05-16 17:31:24 · 1807 阅读 · 0 评论 -
Kimi-Audio:Kimi团队开源最强音频大模型,横扫15项榜单,拿下第一!
Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器(Audio tokenizer),并设计了一种新型的基于LLM的架构,该架构以连续特征作为输入,以离散标记作为输出,并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个用于构建高质量和多样化后训练数据的管道。原创 2025-04-29 20:27:02 · 4762 阅读 · 0 评论 -
PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】
PDFMathTranslate 是一个用于科学 PDF 文档翻译及双语对照的工具,是一个功能强大且灵活的科学文档翻译工具,适合科研人员、学生和专业人士使用,能够有效提高文档翻译的效率和质量。核心功能保留格式:在翻译过程中,能够保留原文档中的公式、图表、目录和注释,确保翻译后的文档与原文在结构和内容上保持一致。多语言支持:支持多种语言的翻译,满足不同用户的需求。多种部署方式:提供命令行工具、图形交互界面以及容器化部署等多种使用方式,方便用户根据自身需求选择。原创 2025-04-25 16:50:28 · 2719 阅读 · 0 评论 -
LightRAG代码详解
LightRAG是一种基于图结构和双层检索机制的检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在通过优化检索效率和知识表示,提升自然语言处理任务的性能。LightRAG的架构分为两个主要部分:基于图的索引阶段和基于图的检索阶段。在索引阶段,系统利用大型语言模型(LLM)从文本块中提取实体和关系,并构建知识图谱。该图谱通过去重和LLM增强分析,生成高效的索引键值对,便于后续检索。原创 2025-04-21 14:27:24 · 3521 阅读 · 0 评论 -
盘古-ultra:不用英伟达GPU,华为发布全新大模型
盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理能力。原创 2025-04-17 15:12:35 · 2136 阅读 · 0 评论 -
基于LightRAG进行本地RAG部署(包括单卡多卡本地模型部署、调用阿里云或DeepSeekAPI的部署方法、RAG使用方法)
本地部署RAG教程原创 2025-04-17 15:09:14 · 7085 阅读 · 1 评论 -
Qwen2.5-VL技术报告:多模态大模型的新SOTA!视觉理解能力全面超越GPT-4o
Qwen2.5-VL,这是一个最先进的视觉语言模型系列,在多模态理解和交互方面取得了重大进展。Qwen2.5-VL增强了视觉识别、对象定位、文档解析和长视频理解能力,在静态和动态任务中都表现出色。其原生的动态分辨率处理和绝对时间编码能够稳健地处理各种输入,而Window Attention在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL迎合了从边缘AI到高性能计算的广泛应用。原创 2025-02-24 16:24:30 · 3989 阅读 · 0 评论 -
MoBA:kimi团队发布超强注意力方法,让大模型的上下文理解长度突破10M!
本文介绍了一种名为 Mixture of Block Attention (MoBA) 的新型注意力机制,旨在解决大规模语言模型(LLMs)在处理长序列时面临的计算复杂度问题。MoBA作为一种创新的注意力机制,为解决大规模语言模型在处理长序列时的计算瓶颈提供了一种新的思路。原创 2025-02-22 14:30:07 · 1814 阅读 · 0 评论 -
原生稀疏注意力:Deepseek又一重磅开源!实现高效的大模型超长文本建模!
这篇论文介绍了一种名为NSA(Native Sparse Attention)的新型稀疏注意力机制,旨在解决长文本建模中标准注意力机制计算成本高昂的问题。NSA通过结合算法创新和硬件优化,实现了高效的长文本建模,同时保持了模型的性能。NSA作为一种硬件对齐的稀疏注意力架构,通过分层的稀疏策略和可训练的设计,在保持全注意力性能的同时,显著降低了计算成本,为长文本建模提供了一种高效且实用的解决方案。原创 2025-02-22 14:27:58 · 1768 阅读 · 0 评论 -
Step-Video-T2V:阶跃星辰发布最强开源视频生成模型(论文详解)
本技术报告介绍并开源Step-Video-T2 V,这是一种最先进的预训练文本视频生成模型,具有30 B参数,深度压缩的Video-VAE,用于视频生成的DPO方法,以及生成长度高达204帧视频的能力。作者全面概述了预训练和后训练策略,并介绍了Step-Video-T2 V-Eval作为评估文本到视频生成模型的新基准。当前文本到视频模型仍然面临巨大的挑战。首先,高质量的标记数据仍然是一个重大障碍。现有的视频字幕模型经常与幻觉问题作斗争,并且人类注释昂贵且难以扩展。原创 2025-02-18 21:34:53 · 3816 阅读 · 0 评论 -
s1:李飞飞团队新作,仅使用1000条数据训练,达到o1水平!
本文提出了一种名为“简单测试时扩展”(Simple Test-time Scaling)的方法,旨在通过在测试阶段增加计算资源来提升语言模型的推理性能。该方法的核心是通过少量数据的监督微调(Supervised Fine-Tuning, SFT)和一种称为“预算强制”(Budget Forcing)的技术来控制模型在推理过程中的思考时间,从而实现性能的显著提升。研究团队通过精心策划的数据集s1K,仅包含1000个经过严格筛选的问题及其推理路径,来训练他们的模型s1-32B。原创 2025-02-07 20:18:12 · 2132 阅读 · 0 评论 -
Open-R1:Deepseek-R1复现项目(包含SFT阶段、GRPO阶段代码详解)
DeepSeek-R1的意义在于其通过创新的训练方法和技术突破,为大型语言模型(LLMs)在推理能力、训练效率和成本控制等方面树立了新的标杆。其采用的多阶段训练策略,结合冷启动数据微调、强化学习(RL)和监督微调(SFT),不仅显著提升了模型在复杂推理任务中的表现,还解决了传统单阶段训练方法难以克服的挑战。DeepSeek-R1的训练过程证明了强化学习可以有效提升模型的推理能力,同时其创新的GRPO算法大幅降低了训练成本,使得高性能推理模型的开发更加高效和经济。原创 2025-02-07 18:22:49 · 10948 阅读 · 0 评论 -
Janus-Pro:Deepseek又一强力之作,统一多模态理解与生成!(包含论文代码详解)
本文介绍了 Janus-Pro,这是 Janus 模型的高级版本,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。Janus-Pro 在多模态理解基准测试中超越了现有的先进模型,并在文本到图像指令遵循任务中表现出色。代码和模型已公开。方法1. 架构设计Janus-Pro 的架构与 Janus 保持一致,核心是将多模态理解任务和视觉生成任务的视觉编码进行解耦。对于多模态理解任务,使用 SigLIP 编码器提取图像的高维语义特征;原创 2025-02-01 12:19:41 · 2694 阅读 · 0 评论 -
DeepseekMath:超强开源数学模型(论文详解)
在本研究中,作者引入了DeepSeekMath,这是一个特定于领域的语言模型,它的数学性能显著优于开源模型,在学术基准测试中接近GPT-4的性能水平。为了实现这一目标,作者创建了DeepSeekMath语料库,这是一个包含120 B个数学标记的大规模高质量预训练语料库。在初始迭代中,使用OpenWebMath中的实例来训练分类器作为正面例子,同时纳入了其他网页的多样化选择作为负面例子。随后,使用基于fastText的分类器从Common Crawl中挖掘额外的正实例,这些正实例通过人工标注进一步细化。原创 2025-01-28 11:47:50 · 9818 阅读 · 0 评论 -
qwen2.5-vl:阿里开源超强多模态大模型(包含使用方法、微调方法介绍)
Qwen2.5-VL是由阿里巴巴通义千问团队推出的一款开源视觉语言模型,它在视觉理解、多模态交互以及自动化任务执行等方面展现出卓越的能力。该模型不仅能够识别常见的物体,如花卉、鸟类、鱼类、昆虫等,还能深入分析图像中的文本、图表、图标、图形和布局,其通用图像识别能力得到了显著增强,大幅扩展了可识别的图像类别范围。原创 2025-01-28 11:45:43 · 43109 阅读 · 17 评论 -
Deepseek-R1:纯强化学习实现接近OpenAI o1水平(论文解读)
最近,post-training已成为大模型训练的一个重要组成部分。它可以提高推理任务的准确性,并适应用户的偏好,同时相对于预训练,它只需要相对最少的计算资源。在推理能力方面,OpenAI的o 1系列模型是第一个通过增加思维链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时间缩放的挑战仍然是一个开放的问题。一些先前的工作已经探索了各种方法,包括基于过程的奖励模型、强化学习,以及诸如蒙特卡罗树搜索和波束搜索。原创 2025-01-23 14:17:46 · 8579 阅读 · 0 评论 -
LeDeCo:AI自动化排版、设计、美化海报
这篇文章的核心内容是介绍了一种名为LaDeCo的新型自动图形设计构图方法。LaDeCo通过将大型多模态模型(LMMs)与分层设计原则相结合,能够将多模态图形元素自动组合成一个整体、平衡且美观的图形设计。原创 2025-01-16 22:32:41 · 2389 阅读 · 0 评论 -
Cosmos:英伟达发布世界基础模型,为机器人及自动驾驶开发加速!
本文介绍了Cosmos World Foundation Model Platform,这是一个旨在帮助开发者构建定制化世界模型以推进物理AI系统发展的平台。物理AI系统通过配备传感器和执行器,能够观察和交互现实世界,如自动驾驶汽车。研究者们提出了一个世界基础模型(WFM),这是一个物理世界的数字孪生模型,物理AI可以与之安全地交互。WFM作为解决方案,帮助开发者解决数据扩展问题,加速物理AI技术的发展。原创 2025-01-15 21:51:05 · 2461 阅读 · 0 评论 -
类o1系列模型大盘点:QwQ、Deepseek-R1、Marco-o1、Huatuo-o1、GLM-Zero...
OpenAI的o1模型代表了人工智能领域在推理能力方面的一个重要进步。本文将盘点几个具有代表性的类o1工作:包括OpenAI o1、来自阿里巴巴团队的QwQ、QVQ、Marco-o1、和Deepseek团队的R1、以及智谱团队的GLM-Zero、还有增强LLaVA性能的LLaVA-CoT,以及面向医学大模型的Huatuo-o1、来自微信团队的DRT-o1等。原创 2025-01-04 17:39:23 · 7601 阅读 · 0 评论 -
CosyVoice2:阿里开源语音合成模型,模仿、生成、细粒度控制,全部拿下!(附使用方法、论文代码详解)
CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。原创 2024-12-31 17:46:44 · 20282 阅读 · 10 评论 -
DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解)
DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型,采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化,预训练于14.8万亿tokens,并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异,尤其在代码和数学任务上,与顶尖闭源模型媲美,而训练成本仅为2.788M H800 GPU小时。原创 2024-12-29 21:13:03 · 18251 阅读 · 0 评论 -
ColorFlow:基于检索增强的黑白漫画上色模型(包含论文代码详解)
这篇文章介绍了一个名为ColorFlow的先进模型,它专门设计用于给黑白图像序列上色,同时精确保持人物和对象的身份特征。ColorFlow模型的意义在于它能够利用参考图像中的颜色信息,为漫画、动画制作和黑白电影着色等任务提供强大的技术支持。这项技术的应用不仅能够提高内容创作的效率,还能够增强最终作品的艺术表现力和观众的沉浸感,为艺术产业带来创新和活力。通过这项工作,ColorFlow框架不仅提升了艺术作品的创作效率和质量,而且扩展了艺术创作的边界,为艺术产业的数字化转型和创新发展注入了新的活力。目录。原创 2024-12-22 20:44:04 · 2504 阅读 · 1 评论 -
DiffSense:强大的漫画生成模型,一键生成漫画!(包含使用教程及论文代码分析)
本文介绍了DiffSensei,用于定制化漫画生成的AI模型。DiffSensei能够理解文本提示,动态调整角色特征和布局,创造出既符合描述又具有视觉吸引力的漫画内容。原创 2024-12-19 22:31:29 · 3684 阅读 · 1 评论 -
VAR:视觉生成新范式,投毒风波难掩NeurIPS2024最佳论文!(包含论文代码详解)
Visual AutoRegressive modeling (VAR),这是一种新一代范式,与标准光栅扫描“next-token预测”不同,它将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”。VAR首次使GPT风格的AR模型在图像生成方面超过DiT。除此之外,VAR还延续了LLM的两个重要特性:Scaling Laws and zero-shot泛化。原创 2024-12-16 22:03:36 · 2700 阅读 · 0 评论 -
IC-Light:ICLR2025满分论文,ControlNet作者新作,控制光照,更自然地融合图片!
在这篇博客中,我们深入探讨了IC-Light技术,这是一种突破性的图像照明操控方法。IC-Light通过精确捕捉背景图中的光照信息,并重新调整图像主体的光照,实现了对图像照明的精细控制。它不仅能够随意控制照片中的光源和背景,还能迅速将主体、光源和背景三者融合在一起,创造出自然而逼真的图像效果。这项技术的应用,不仅提升了图像编辑的灵活性和效率,还极大地丰富了视觉效果的可能性,为图像处理领域带来了新的视角和工具。原创 2024-12-05 21:47:09 · 4015 阅读 · 0 评论 -
MagicQuill:结合大模型和扩散模型的图像编辑神器
MagicQuill是一个先进的智能互动图像编辑系统,它通过结合强大的扩散模型和多模态大型语言模型(MLLM),提供了一个既强大又易于使用的图像编辑平台,使得即使是非专业人士也能轻松进行高质量的图像编辑。原创 2024-12-02 22:21:44 · 2424 阅读 · 0 评论 -
HPT:何凯明新作!解决智能体异构问题(包含论文代码详解)
在这篇博客中,我们介绍了异构预训练Transformer(HPT)模型,这是由MIT和Meta FAIR团队开发的机器人学习领域的一个突破。HPT解决了机器人学习中的异构性问题,通过预训练一个共享的神经网络主干来学习通用的表示,使模型能够跨机器人硬件和任务迁移和泛化。这一创新减少了对特定任务数据的需求,并在真实与模拟环境中展现了优异的性能,预示着机器人技术在智能化和自主化方面的广阔前景。原创 2024-11-22 20:40:54 · 2308 阅读 · 0 评论 -
Video-LLM:根据视频进行实时互动的创新模型(包含论文代码详解)
VideoLLM-online,这是一个突破性的模型,它通过实时处理视频流并进行交互式对话,为流媒体视频交互带来了革命性的进步。这个模型不仅能够理解视频中的视觉内容,还能够在视频播放的同时提供实时的语言反馈,这为后续实现人工智能助手提供了无限可能原创 2024-11-22 20:18:27 · 4427 阅读 · 2 评论 -
Emu-3:多模态理解与生成的统一模型(包含论文代码解析)
emu3,这是一系列新的多模态模型,通过next-token进行多模态生成和理解。通过将图像、文本和视频标记到一个离散空间中,并从头训练单个Transformer,Emu 3不仅消除了对扩散和合成方法的依赖,而且还超越了SDXL和LLaVA-1.6等已建立的特定任务模型的性能。这篇论文的研究结果提供了令人信服的证据,表明Next-token可以作为多模态模型的强大范例,超越其他类型的模型,并在各种任务中提供最先进的性能,包括具有挑战性的视频生成。原创 2024-10-31 15:46:49 · 5117 阅读 · 1 评论 -
LLaVA-1.5:强大的多模态大模型(包含论文代码详解)
LLaVA,这个大型语言和视觉助手,以其卓越的多模态能力在人工智能领域脱颖而出。它不仅集成了视觉编码器和语言模型,还通过端到端训练的方式,实现了对视觉和语言信息的深度融合与理解,这在多模态交互领域是一个巨大的飞跃。LLaVA的核心优势在于其能够处理和理解复杂的视觉和语言数据,提供更为精准和丰富的信息处理能力。它的设计允许模型在保持高性能的同时,对高分辨率图像进行有效处理,这一点在LLaVA-1.5-HD版本中得到了显著的提升。原创 2024-10-30 20:53:07 · 11712 阅读 · 2 评论 -
Show-o:统一多模态理解和生成的强大模型(包含代码论文详解)
Show-o”是一种创新的统一Transformer模型,它在多模态理解和生成领域展现出了革命性的潜力。与传统的多模态模型不同,Show-o通过融合自回归和离散扩散建模,能够灵活地处理各种模态的输入和输出。这种融合策略不仅提高了模型的适应性,还增强了其在不同视觉-语言任务中的表现力,包括视觉问题回答、文本到图像生成、文本引导的修复和扩展,以及混合模态生成等。在实际应用中,Show-O模型展示了其在加速图像生成方面的显著优势。原创 2024-10-29 21:01:11 · 2692 阅读 · 0 评论 -
Pyramid Flow:北大开源的视频生成模型
Pyramid-Flow是北大和快手团队开发的视频生成模型,其在生成长达10秒、分辨率高达1280x768、帧率为24fps的高清视频方面表现出色。原创 2024-10-19 20:32:05 · 2834 阅读 · 0 评论 -
CogVideoX-5b及I2V详解(包含代码、论文详解)
CogVideoX是由智谱AI推出的一款先进的视频生成模型,它通过深度学习和计算机视觉技术,能够将简短的文本描述或静态图片转化为高质量、具有视觉吸引力的动态视频。这一技术的出现极大地拓展了视频创作的边界,为用户提供了一种全新的视频创作体验。原创 2024-10-16 22:26:41 · 8482 阅读 · 9 评论
分享