自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 Kimi-Audio:Kimi团队开源最强音频大模型,横扫15项榜单,拿下第一!

Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器(Audio tokenizer),并设计了一种新型的基于LLM的架构,该架构以连续特征作为输入,以离散标记作为输出,并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个用于构建高质量和多样化后训练数据的管道。

2025-04-29 20:27:02 353

原创 Qwen3:重磅开源,重夺开源第一!(包含详细使用教程)

Qwen3 代表了人类在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模,之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式,为用户提供了灵活控制思考预算的能力。此外,作者还扩展了对多种语言的支持,帮助全球更多用户。

2025-04-29 12:14:44 1259

原创 Java零基础入门:注解和反射

Java的注解和反射是两个强大的特性,它们共同为开发者提供了在运行时处理元数据的能力。注解是一种标记或元数据,可以附加到Java代码的元素上,如类、方法、字段等。反射是Java提供的一种机制,允许程序在运行时访问、检测和修改它本身的类和对象的信息。通过反射,程序可以创建对象、调用方法、访问字段,甚至可以获取注解信息。反射的核心是`java.lang.Class`类,它代表类和接口的运行时表示。通过`Class`对象,可以获取类的成员信息,包括字段、方法和构造器,并且可以获取注解信息。

2025-04-25 16:51:57 981

原创 PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】

PDFMathTranslate 是一个用于科学 PDF 文档翻译及双语对照的工具,是一个功能强大且灵活的科学文档翻译工具,适合科研人员、学生和专业人士使用,能够有效提高文档翻译的效率和质量。核心功能保留格式:在翻译过程中,能够保留原文档中的公式、图表、目录和注释,确保翻译后的文档与原文在结构和内容上保持一致。多语言支持:支持多种语言的翻译,满足不同用户的需求。多种部署方式:提供命令行工具、图形交互界面以及容器化部署等多种使用方式,方便用户根据自身需求选择。

2025-04-25 16:50:28 1304

原创 CSS零基础入门笔记:狂神版

1.后代选择器(Descendant Selector)语法ancestor descendant { /* 样式规则 */ }作用:选择指定祖先元素内部的所有后代元素,无论它们嵌套在什么层级中。特点:作用范围最广,会选择所有符合条件的后代元素。2.子选择器(Child Selector)语法parent > child { /* 样式规则 */ }作用:选择指定父元素的直接子元素,不会选择更深层次的后代元素。特点:作用范围较窄,只选择直接子元素。3.

2025-04-21 14:31:41 920

原创 LightRAG代码详解

LightRAG是一种基于图结构和双层检索机制的检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在通过优化检索效率和知识表示,提升自然语言处理任务的性能。LightRAG的架构分为两个主要部分:基于图的索引阶段和基于图的检索阶段。在索引阶段,系统利用大型语言模型(LLM)从文本块中提取实体和关系,并构建知识图谱。该图谱通过去重和LLM增强分析,生成高效的索引键值对,便于后续检索。

2025-04-21 14:27:24 1103

原创 盘古-ultra:不用英伟达GPU,华为发布全新大模型

盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理能力。

2025-04-17 15:12:35 916

原创 基于LightRAG进行本地RAG部署(包括单卡多卡本地模型部署、调用阿里云或DeepSeekAPI的部署方法、RAG使用方法)

本地部署RAG教程

2025-04-17 15:09:14 1527 2

原创 西瓜书《机器学习》全网最详细解读 第一章:绪论

《机器学习》,又称西瓜书,是南京大学教授周志华教授编著的一本机器学习领域的经典教材。在接下来的日子里,我将每周精心打磨一章内容,全方位、多角度地为大家剖析书中精髓。

2025-04-12 18:32:52 1086 2

原创 Seed-Thinking-v1.5:字节豆包新推理模型发布,200B参数战胜Deepseek

字节跳动旗下的豆包团队正式发布了其最新的推理模型——Seed-Thinking-v1.5,该模型在多个方面展现出了明显的技术优势。这一进展不仅推动了推理模型的发展,还引发了同行业内的高度关注,标志着AI技术在通用推理能力上的一个重要里程碑。

2025-04-12 18:29:30 1007

原创 HTML零基础入门笔记:狂神版

HTML,即超文本标记语言(HyperText Markup Language),是用于创建网页的标准标记语言。它通过一系列的标签和元素来定义网页的结构和内容,这些标签告诉浏览器如何显示页面上的文字、图片、链接、表格等内容。HTML文档由一系列嵌套的元素组成,每个元素都有其特定的语义和功能。例如,<html>标签是文档的根元素,它包含了整个页面的内容;<head>部分用于定义文档的元数据,比如标题、字符集、链接外部资源等;而<body>部分则包含了用户可以看到的页面内容,如文本、图片、表单等。

2025-04-06 20:04:38 850

原创 LLaMA 4深夜发布:重夺开源第一!首个使用MoE架构的LLaMA模型

Meta公司于2025年4月6日发布的Llama 4模型系列无疑为这场竞赛注入了新的活力。作为Meta首个基于混合专家(MoE)架构的模型系列,Llama 4以其卓越的性能、创新的设计和极高的性价比,迅速在开源模型领域崭露头角,甚至在某些方面超越了当前行业内的顶尖模型。这一系列的发布不仅标志着Llama生态系统进入了一个新的时代,也引发了整个AI行业对多模态模型和高效计算架构的广泛关注。

2025-04-06 20:02:06 1221

原创 DyT:何凯明LeCun联手,删除归一化层,性能不减速度反升!

DyT的提出具有重要的贡献和意义。首先,它提供了一种简单而有效的归一化层替代方案。传统的归一化层如Layer Normalization虽然在稳定训练和提升模型性能方面发挥了重要作用,但计算过程相对复杂,需要计算输入数据的均值和方差。DyT通过简单的α缩放和tanh函数操作,避免了这些复杂的计算,从而显著提高了训练和推理的效率。其次,DyT在多种任务和模型架构中表现出色。实验结果表明,使用DyT的模型在视觉、语言、语音等多个领域的任务中,都能达到甚至超过传统归一化层的性能,且几乎不需要调整超参数。

2025-03-26 20:29:34 942

原创 VideoGrain:ICLR2025收录,无需训练,实现细粒度多层次视频编辑

提出了一种名为 VideoGrain 的零样本方法,用于实现多粒度视频编辑。该方法通过调节空间-时间注意力机制,为多粒度视频编辑提供了一种有效的解决方案。它不仅能够实现对视频内容的精确控制,还能够保持视频的原始结构和连贯性。这一方法为视频编辑领域带来了新的可能性,尤其是在需要对视频进行细粒度控制的应用场景中。

2025-03-26 20:24:13 846

原创 YOLOv12:首个以Attention为核心的YOLO框架问世!性能与速度的再次提升!(论文代码详解)

YOLOv12论文代码详解

2025-03-09 22:12:37 1240

原创 Java零基础入门笔记:多线程

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-03-09 22:09:46 813

原创 Java零基础入门笔记:(7)异常

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-03-02 17:18:17 656

原创 Java零基础入门笔记:(6)面向对象

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-03-02 17:04:37 987

原创 Java零基础入门笔记:(5)数组

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-24 16:25:02 976

原创 Qwen2.5-VL技术报告:多模态大模型的新SOTA!视觉理解能力全面超越GPT-4o

Qwen2.5-VL,这是一个最先进的视觉语言模型系列,在多模态理解和交互方面取得了重大进展。Qwen2.5-VL增强了视觉识别、对象定位、文档解析和长视频理解能力,在静态和动态任务中都表现出色。其原生的动态分辨率处理和绝对时间编码能够稳健地处理各种输入,而Window Attention在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL迎合了从边缘AI到高性能计算的广泛应用。

2025-02-24 16:24:30 2189

原创 MoBA:kimi团队发布超强注意力方法,让大模型的上下文理解长度突破10M!

本文介绍了一种名为 Mixture of Block Attention (MoBA) 的新型注意力机制,旨在解决大规模语言模型(LLMs)在处理长序列时面临的计算复杂度问题。MoBA作为一种创新的注意力机制,为解决大规模语言模型在处理长序列时的计算瓶颈提供了一种新的思路。

2025-02-22 14:30:07 984

原创 原生稀疏注意力:Deepseek又一重磅开源!实现高效的大模型超长文本建模!

这篇论文介绍了一种名为NSA(Native Sparse Attention)的新型稀疏注意力机制,旨在解决长文本建模中标准注意力机制计算成本高昂的问题。NSA通过结合算法创新和硬件优化,实现了高效的长文本建模,同时保持了模型的性能。NSA作为一种硬件对齐的稀疏注意力架构,通过分层的稀疏策略和可训练的设计,在保持全注意力性能的同时,显著降低了计算成本,为长文本建模提供了一种高效且实用的解决方案。

2025-02-22 14:27:58 1208

原创 Step-Video-T2V:阶跃星辰发布最强开源视频生成模型(论文详解)

本技术报告介绍并开源Step-Video-T2 V,这是一种最先进的预训练文本视频生成模型,具有30 B参数,深度压缩的Video-VAE,用于视频生成的DPO方法,以及生成长度高达204帧视频的能力。作者全面概述了预训练和后训练策略,并介绍了Step-Video-T2 V-Eval作为评估文本到视频生成模型的新基准。当前文本到视频模型仍然面临巨大的挑战。首先,高质量的标记数据仍然是一个重大障碍。现有的视频字幕模型经常与幻觉问题作斗争,并且人类注释昂贵且难以扩展。

2025-02-18 21:34:53 2742 1

原创 Java零基础入门笔记:(4)方法

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-18 21:33:28 913

原创 Java零基础入门笔记:(3)程序控制

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-17 21:17:20 1090

原创 Java零基础入门笔记:(1-2)入门(简介、基础知识)

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-17 21:14:37 1020

原创 s1:李飞飞团队新作,仅使用1000条数据训练,达到o1水平!

本文提出了一种名为“简单测试时扩展”(Simple Test-time Scaling)的方法,旨在通过在测试阶段增加计算资源来提升语言模型的推理性能。该方法的核心是通过少量数据的监督微调(Supervised Fine-Tuning, SFT)和一种称为“预算强制”(Budget Forcing)的技术来控制模型在推理过程中的思考时间,从而实现性能的显著提升。研究团队通过精心策划的数据集s1K,仅包含1000个经过严格筛选的问题及其推理路径,来训练他们的模型s1-32B。

2025-02-07 20:18:12 1522

原创 Open-R1:Deepseek-R1复现项目(包含SFT阶段、GRPO阶段代码详解)

DeepSeek-R1的意义在于其通过创新的训练方法和技术突破,为大型语言模型(LLMs)在推理能力、训练效率和成本控制等方面树立了新的标杆。其采用的多阶段训练策略,结合冷启动数据微调、强化学习(RL)和监督微调(SFT),不仅显著提升了模型在复杂推理任务中的表现,还解决了传统单阶段训练方法难以克服的挑战。DeepSeek-R1的训练过程证明了强化学习可以有效提升模型的推理能力,同时其创新的GRPO算法大幅降低了训练成本,使得高性能推理模型的开发更加高效和经济。

2025-02-07 18:22:49 7236

原创 人工智能入门课【手写自注意力机制】

总的来说,自注意力机制是一种强大的神经网络架构组件,用于动态地衡量输入序列中不同位置之间的关联程度。它通过计算查询(Query)、键(Key)和值(Value)之间的点积,生成注意力权重,再利用这些权重对值进行加权求和,从而实现对输入数据的全局信息捕捉。这种机制允许模型在处理每个元素时,同时考虑整个序列的信息,有效解决了传统序列模型难以捕捉长距离依赖的问题。自注意力机制的核心优势在于其并行计算能力和对全局信息的高效利用,使其在自然语言处理和计算机视觉等领域得到了广泛应用。

2025-02-01 20:21:12 1175

原创 Janus-Pro:Deepseek又一强力之作,统一多模态理解与生成!(包含论文代码详解)

本文介绍了 Janus-Pro,这是 Janus 模型的高级版本,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。Janus-Pro 在多模态理解基准测试中超越了现有的先进模型,并在文本到图像指令遵循任务中表现出色。代码和模型已公开。方法1. 架构设计Janus-Pro 的架构与 Janus 保持一致,核心是将多模态理解任务和视觉生成任务的视觉编码进行解耦。对于多模态理解任务,使用 SigLIP 编码器提取图像的高维语义特征;

2025-02-01 12:19:41 1947 1

原创 DeepseekMath:超强开源数学模型(论文详解)

在本研究中,作者引入了DeepSeekMath,这是一个特定于领域的语言模型,它的数学性能显著优于开源模型,在学术基准测试中接近GPT-4的性能水平。为了实现这一目标,作者创建了DeepSeekMath语料库,这是一个包含120 B个数学标记的大规模高质量预训练语料库。在初始迭代中,使用OpenWebMath中的实例来训练分类器作为正面例子,同时纳入了其他网页的多样化选择作为负面例子。随后,使用基于fastText的分类器从Common Crawl中挖掘额外的正实例,这些正实例通过人工标注进一步细化。

2025-01-28 11:47:50 4614

原创 qwen2.5-vl:阿里开源超强多模态大模型(包含使用方法、微调方法介绍)

Qwen2.5-VL是由阿里巴巴通义千问团队推出的一款开源视觉语言模型,它在视觉理解、多模态交互以及自动化任务执行等方面展现出卓越的能力。该模型不仅能够识别常见的物体,如花卉、鸟类、鱼类、昆虫等,还能深入分析图像中的文本、图表、图标、图形和布局,其通用图像识别能力得到了显著增强,大幅扩展了可识别的图像类别范围。

2025-01-28 11:45:43 29348 16

原创 Deepseek-R1:纯强化学习实现接近OpenAI o1水平(论文解读)

最近,post-training已成为大模型训练的一个重要组成部分。它可以提高推理任务的准确性,并适应用户的偏好,同时相对于预训练,它只需要相对最少的计算资源。在推理能力方面,OpenAI的o 1系列模型是第一个通过增加思维链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时间缩放的挑战仍然是一个开放的问题。一些先前的工作已经探索了各种方法,包括基于过程的奖励模型、强化学习,以及诸如蒙特卡罗树搜索和波束搜索。

2025-01-23 14:17:46 7752

原创 Kimi-k1.5:全新SOTA模型,追平满血OpenAI-o1!(论文解读)

1 月 20 日,月之暗面推出 Kimi 全新 SOTA 模型 ——k1.5 多模态思考模型,其实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。官方表示,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。在这篇报告中,作者介绍了最新的多模态LLM Kimi k1.5的训练方法,它是用强化学习(RL)训练的。

2025-01-23 14:16:10 1816

原创 LeDeCo:AI自动化排版、设计、美化海报

这篇文章的核心内容是介绍了一种名为LaDeCo的新型自动图形设计构图方法。LaDeCo通过将大型多模态模型(LMMs)与分层设计原则相结合,能够将多模态图形元素自动组合成一个整体、平衡且美观的图形设计。

2025-01-16 22:32:41 1668

原创 Lora综述:全面系统的理解lora微调

LoRA作为一种新兴的大型语言模型微调技术,近年来在各大领域备受注。本文综述了LoRA技术的多方面内容。首先深入剖析了LoRA的原理,接着详细回顾了LoRA的发展历程。此外,对LoRA的应用情况进行了广泛梳理,凸显了LoRA相较于传统微调方法的优势。同时,探讨了LoRA与其他微调技术的结合应用,进一步拓展了其应用边界和性能潜力。最后,对LoRA技术面临的挑战进行了分析,并展望了未来的发展方向。本文旨在为后续研究提供有价值的参考和启示,推动LoRA技术在大型语言模型微调领域的持续发展与创新。

2025-01-16 21:13:20 3785

原创 Cosmos:英伟达发布世界基础模型,为机器人及自动驾驶开发加速!

本文介绍了Cosmos World Foundation Model Platform,这是一个旨在帮助开发者构建定制化世界模型以推进物理AI系统发展的平台。物理AI系统通过配备传感器和执行器,能够观察和交互现实世界,如自动驾驶汽车。研究者们提出了一个世界基础模型(WFM),这是一个物理世界的数字孪生模型,物理AI可以与之安全地交互。WFM作为解决方案,帮助开发者解决数据扩展问题,加速物理AI技术的发展。

2025-01-15 21:51:05 1560

原创 类o1系列模型大盘点:QwQ、Deepseek-R1、Marco-o1、Huatuo-o1、GLM-Zero...

OpenAI的o1模型代表了人工智能领域在推理能力方面的一个重要进步。本文将盘点几个具有代表性的类o1工作:包括OpenAI o1、来自阿里巴巴团队的QwQ、QVQ、Marco-o1、和Deepseek团队的R1、以及智谱团队的GLM-Zero、还有增强LLaVA性能的LLaVA-CoT,以及面向医学大模型的Huatuo-o1、来自微信团队的DRT-o1等。

2025-01-04 17:39:23 6350

原创 CosyVoice2:阿里开源语音合成模型,模仿、生成、细粒度控制,全部拿下!(附使用方法、论文代码详解)

CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。

2024-12-31 17:46:44 10246 5

原创 DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解)

DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型,采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化,预训练于14.8万亿tokens,并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异,尤其在代码和数学任务上,与顶尖闭源模型媲美,而训练成本仅为2.788M H800 GPU小时。

2024-12-29 21:13:03 15506

使用DeepSeek进行翻译的文章

使用DeepSeek进行翻译的文章

2025-04-25

使用谷歌翻译进行翻译的文章

使用谷歌翻译进行翻译的文章

2025-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除