asd8705-CSDN博客

转载怎样读好你的研究生？

编辑推荐：　　很早之前就想提笔写这样一篇文章，但时间总不给我一个喘气的机会，趁今天有一点小空写写，一方面算是总结自己对人生、科研、梦想的认识，一方面算是给自己的师弟、师妹，以及我带过的本科生们一些方向上的东西。出处：科学网辛利鹏很早之前就想提笔写这样一篇文章，但时间总不给我一个喘气的机会，趁今天有一点小空写写，一方面算是总结自己对人生、科研、梦想的认识，一方面算是给自己的师

2015-12-01 15:09:29 898

原创 Jasper and Stella: distillation of SOTA embedding models

Dense检索是许多深度学习应用系统中（例如常见问题（FAQ）和检索增强生成（RAG））关键组成部分。在此过程中，Embedding模型将原始文本转换为向量。然而，目前在文本Embedding基准测试中表现出色的Embedding模型，如海量文本嵌入基准测试（MTEB），通常具有许多参数和高向量维度。这给它们在实际场景中的应用带来了挑战。为了解决这个问题，我们提出了一种新的多阶段蒸馏框架，使较小的学生嵌入模型能够通过三个精心设计的损失来提取多个较大的教师嵌入模型。

2025-05-04 17:31:42 1088

原创 Qwen2.5技术报告

1、In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. 在预训练过程中的token 从Qwen2的训练集 7t到了18t。

2025-04-28 15:01:09 726

原创 LLaMA-Factory使用命令

directory.

2025-03-04 15:32:44 596

原创 Deepseek Natively Sparse Attention

提出一种高效、可训练的稀疏注意力机制，以提高长文本处理的计算效率，同时保持模型性能。：可根据任务需求设定不同的窗口大小（例如代码生成任务可能需要更大的窗口）。NSA 通过以下三种不同的注意力计算路径，让 Transformer。是可学习的门控参数（Gating Mechanism）。- 这样，原始 Key-Value 变成了。- 这样可以降低计算量，同时保留重要信息。，为长文本建模提供了新的解决方案。的方式，将 Key-Value。，提高计算效率，同时保留重要信息。，大幅减少了 Key 的数量。

2025-02-20 10:46:37 797

翻译什么是(Agentic RAG )代理型RAG？一份完整指南

代理型RAG通过引入智能AI代理来解决这些限制，这些AI代理能够自主分析数据、制定战略决策并进行多步骤推理。这种方法允许在多样化和广泛的数据集上管理复杂任务。

2025-02-17 10:46:13 121

原创 GRPOTrainer原理解析

是一个用于训练语言模型的强化学习工具，它通过优化策略网络，使得模型在面对不同输入时能够生成更有可能获得高奖励的输出[2它是库中Trainer的子类，支持日志记录、检查点、分布式训练和参数高效微调（PEFT）等功能[4LGRPOθ−1G∑i1G1∥oi∥∑t1∥oi∥πθoit∣qoitπθoit∣qoitno gradAit−βDKLπθ∥πrefLGRPOθ−G1i1∑。

2025-02-10 14:12:31 1648

翻译迷你R1：重现Deepseek R1的“顿悟时刻”强化学习教程

在我们的迷你R1实验中，我们使用了GRPO，并采用了两个基于规则的奖励，但已经需要大量的计算资源：4块H100 GPU运行6小时，才能完成一个30亿参数模型的450个训练步骤。在这个阶段，DeepSeek-R1-Zero（DeepSeek-R1的首次测试）学会了在没有任何人类反馈或描述如何进行操作的数据的情况下，通过重新评估其初始方法，为问题分配更多的思考时间。模型开始学习一种新的“格式”，它以类似于编程的方式解决方程，通过尝试不同的组合并审查结果，请参见“200 步到 450 步之间的成功推理样本”。

2025-02-10 10:48:00 149

翻译开源版 DeepSeek R1：对 DeepSearch R3 的完全开放复现

DeepSeek-R1 是一个基于深度求索 V3 的推理模型。这款拥有 671B 参数规模的大型混合专家（Mixture of Experts, MoE）式神经网络，与Sonnet 3.5以及GPT‑40等顶尖大师水平并驾齐驱，更令人惊叹的是，在实现这一成就时，其训练成本仅为580万美元，这一切都是通过多 token 预测（Multi Token Prediction, MTP）、多头潜在注意力机制（Multi-Head Latent Attention, MLA）等架构创新，以及大量硬件优化所实现。

2025-02-08 15:12:55 309

转载 How to distill Deepseek-R1: A Comprehensive Guide

【代码】How to distill Deepseek-R1: A Comprehensive Guide。

2025-02-07 15:50:49 262

原创 ZeroMQ原理

ZeroMQ（ZMQ）是一种高性能的异步消息库，用于构建分布式系统。

2025-02-07 10:07:48 435

原创 Early Interaction和Late Interaction

通过对比学习（如 InfoNCE 损失函数），模型能够更好地学习查询和文档之间的正负样本区分，从而提高检索质量。查询和文档分别独立编码，检索时只需计算查询向量与预计算的文档向量之间的相似度，计算效率高。：计算成本高，存储需求大，训练复杂度高，难以满足大规模数据集和实时检索的需求。：计算效率高，存储效率高，扩展性强，训练简单，适合大规模数据集和实时检索任务。由于查询和文档的交互在评分阶段才引入，可能无法捕捉到细粒度的语义匹配信息。由于查询和文档的编码是独立的，可以灵活选择不同的编码器和相似度计算方法。

2025-02-05 13:32:27 442

原创 WARP: An Efficient Engine for Multi-Vector Retrieval

ColBERT 通过引入延迟交互机制和基于 BERT 的细粒度相似度计算，显著提高了信息检索的效率和效果。它不仅能够快速处理大规模文档集合，还能更准确地捕捉复杂的语义信息，是当前信息检索领域的重要研究成果之一。

2025-02-05 11:01:29 672

原创医疗中文问答助手

ChatGLM3-6B | 6B | 中文优化，支持工具调用 | RTX 3090(24G) || 华佗(HuaTuo) | 13B | 基于LLaMA的中文医疗微调 | A10G(24G) || Qwen-7B | 7B | 通义千问基础版，中文表现优秀 | RTX 4090(24G) || 评估维度 | 评分标准（1-5分） |

2025-01-23 16:49:03 773

原创 PPO与DPO

PPO（Proximal Policy Optimization）和DPO（Direct Preference Optimization）是两种不同的优化算法，分别应用于强化学习和基于人类反馈的模型微调。奖励模型（Reward Model）的设计直接影响策略优化的效果，尤其是在复杂任务或需要人类偏好的场景中（如对话生成、机器人控制）。DPO 将奖励函数隐式地编码到策略优化中，通过理论推导证明其等价于最大化基于奖励模型的策略目标，但无需显式训练奖励模型。实际应用中，常需多次迭代调整奖励模型和策略训练的协同。

2025-01-23 15:28:15 2722

原创训练大模型所需要的内存计算

训练一个7B参数的大模型，显存需求大约为120-144 GB。实际需求可能因实现和硬件不同而有所变化。使用来训练模型可以显著减少显存占用，因为 BF16 每个参数仅占用2 字节（16 位），而不是 FP32 的 4 字节。使用BF16训练一个 7B 参数的大模型，显存需求大约为88-106 GB。相比 FP32 的 120-144 GB，BF16 可以节省约 25-30% 的显存。

2025-01-23 15:15:15 3648

原创大模型量化

大模型量化技术通过减少模型参数的精度，显著降低了模型的存储和计算需求，同时尽量保持模型性能。不同的量化方法（如PTQ、QAT、QAF）和量化粒度（如逐层、逐通道）可以根据具体需求选择，以实现模型的高效部署。AWQ（Activation-aware Weight Quantization）和AutoAWQ是基于激活感知的权重量化技术，主要用于在不显著损失精度的情况下，将大型语言模型（LLM）的权重压缩到低比特（如4位），以加速推理并减少内存占用。llama.cpp。

2025-01-23 14:56:18 5347

转载什么是DeepSeek-R1蒸馏模型？

所以昨晚，DeepSeek在DeepSeek-V3之后发布了另一个革命性的模型，即DeepSeek-R1和我的孩子，这看起来是一个重大的发布，因为这个模型在几个基准测试中已经超越了OpenAI-o1，即SOTA推理模型。例如，在推理基准测试中，DeepSeek-R1-Distill-Qwen-32B的表现优于DeepSeek-R2-Zero-Qwen-34B，这表明对于较小的模型来说，蒸馏是一种更经济、更有效的方法。蒸馏的目标是使DeepSeek-R1等大型模型的推理能力能够被更小、更高效的模型所利用。

2025-01-22 10:50:26 27866 4

原创小模型smollm

InstructionstotrainSmolLM2-1.7B-Instructhttps://github.com/huggingface/smollm/blob/main/pre-training/smollm2/config_smollm2_360M.yaml

2025-01-18 13:15:56 342

转载 SmolLM: 一个超快速、超高性能的小模型集合

本文将介绍SmolLM。它集合了一系列最尖端的 135M、360M、1.7B 参数量的小模型，这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。本文介绍了 SmolLM 系列模型，通过实验证明了，只要训练充分、数据质量足够好，小模型也可以取得很好的性能。本文在此用 SmolLM 提供了一个示例，强有力地证明了模型大小和模型性能可以做到完美权衡。

2025-01-18 12:00:35 120

转载 Parameter-Efficient LLM Finetuning With Low-Rank Adaptation (LoRA)

【代码】Parameter-Efficient LLM Finetuning With Low-Rank Adaptation (LoRA)

2025-01-17 16:44:51 85

原创 Mixture of experts

关于实施，并行化和计算效率的提高等部分很复杂，所以去除了这些简单的东西。通过调查和简单实施mixture of experts来了解MoE。

2025-01-17 14:33:04 201

原创领域大模型微调

export_dir: models/qwen2_7b_chinese-medical-dialogue_lora_sft # 合并后的模型存放路径。

2025-01-16 14:41:35 138

原创 Embedding训练

Ternary-Embedding-Models

2025-01-16 14:38:38 88

转载文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首

在人工智能的浪潮中，以GPT4、Claude3、Llama 3等大型语言模型（LLM）无疑是最引人注目的潮头。这些模型通过在海量数据上的预训练，学习到了丰富的语言知识和模式，展现了出惊人的能力。在支撑这些大型语言模型应用落地方面，文本向量化模型（Embedding Model）的重要性也不言而喻。近期，我在浏览huggingface发现，国产自研文本向量化模型（以下简称“acge模型”）已经在业界权威的中文语义向量评测基准。

2025-01-12 14:02:52 506

转载 Knowledge Graph + RAG | Microsoft GraphRAG

想要將產業之知識整合到 LLM 中有許多方法，但考量到成本與效益，大部分企業級應用都會結合 RAG 進行，而近期，將 Knowledge Graph (KG) 結合 RAG 被越來越廣泛使用，儼然將會成為下一個熱門的技術，而就在這個風頭上時，7/2 Microsoft 終於將他們的 GraphRAG 開源，從技術文章發表到開源隔了近 5 個月左右，令人非常興奮想要測試其效果，因此這篇文章將向大家介紹 GraphRAG 的概念、優勢及實作步驟，並提供了多種視覺化方法，希望能幫助你快速實踐這項技術。

2024-12-11 14:09:45 181

转载 Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

RAG的目标是通过知识库增强内容生成的质量，通常做法是将检索出来的文档作为提示词的上下文，一并提供给大模型让其生成更可靠的答案。更进一步地，RAG的整体链路还可以与提示词工程（Prompt Engineering）、模型微调（Fine Tuning）、知识图谱（Knowledge Graph）等技术结合，构成更广义的RAG问答链路。增强训练REALM引入了知识检索器增强大模型预训练，以改进大模型的问答质量和可解释性。增强微调RA-DIT实现了对大模型和检索器的双指令微调，RAFT。

2024-12-10 10:17:24 156

转载 LazyGraphRAG：为质量和成本设定新标准

GraphRAG项目旨在通过利用非结构化文本中的隐式关系，扩展人工智能系统可以在私有数据集上回答的问题类别。GraphRAG相对于传统向量RAG（或“语义搜索”）的一个关键优势是它能够回答针对整个数据集的全局查询，例如“数据中的主要主题是什么？”或“对X最重要的影响是什么。相反，向量RAG在本地查询中表现出色，在这些查询中，答案与查询相似，可以在特定的文本区域内找到，就像“谁”、“什么”、“何时”和“何地”问题一样。

2024-12-04 13:54:23 118

转载使用假设文档嵌入 (HyDE) 改进信息检索和 RAG

HyDE，即假设文档嵌入，是一种使用“假”（假设）文档来改进大型语言模型 (LLM) 生成的答案的检索方法。具体来说，HyDE 使用 LLM（原始实现中使用了 GPT-3.5）来创建查询的假设答案。此答案将转换为向量嵌入，并放置在与真实文档相同的空间中。当您搜索某些内容时，系统会找到与此假设答案最匹配的真实文档，即使它们与您搜索中的确切单词不匹配。HyDE 旨在捕捉查询背后的意图，确保检索到的文档在上下文上相关。

2024-12-03 16:12:48 318

原创 Agent

行动 Action 基于推理结果，生成具体的工具调用请求（如查询搜索引擎、调用API、数据库检索等），将模型的推理转化成行动。模型的推理过程分为推理 Reason 和行动 Action 两个步骤，交替执行，直至获得最终结果。推理 Reason 生成分析步骤，解释当前任务的上下文或状态，帮助模型理解下一步行动的逻辑依据。ReAct Reasoning and Acting范式。

2024-12-01 21:01:13 206

转载为检索增强生成（RAG）微调嵌入模型

login。

2024-11-18 15:41:37 79

原创文生图模型

虽然 CogView3 系列模型都是通过长篇合成图像描述进行训练的，但我们强烈建议在文本生成图像之前，基于大语言模型（LLMs）进行提示词的重写操作，这将大大提高生成质量。我们建议您运行这个脚本，以实现对提示词对润色。首先，确保从源代码安装。

2024-10-19 11:07:12 401

转载 Building RAG-based LLM Applications for Production

[ GitHub | Notebook | Anyscale Endpoints | Ray Docs] · 55 min readNote: Check out the new evaluation reports and cost analysis with and our data flywheel workflow to continuously improve our RAG applications.In this guide, we will learn how to:💻 Develo

2024-10-10 08:58:38 340

自然语言语料 大模型语料 金融研报 食品饮料行业 3246篇

Understanding DeepLearning

boot2docker v17.03.1-ce

空空如也

自然语言语料大模型语料金融研报食品饮料行业 3246篇