SmallerFL-CSDN博客

原创理解LLM所谓的“推理”能力

本文探讨了大语言模型(LLM)的推理能力定义及提升方法。作者将推理定义为处理需要多步骤思考的复杂问题，如数学证明和谜语解答，而非简单的事实性问题。目前提升推理能力主要有四种方法：(1)推理时间扩展技术，如思维链提示和多答案投票；(2)纯强化学习，如DeepSeek-R1-Zero采用的跳过监督微调直接强化训练；(3)结合监督微调和强化学习的标准流程，如DeepSeek-R1；(4)模型蒸馏技术。文章指出，专用推理模型适合处理复杂推理任务，但不适用于简单问答

2025-06-12 16:08:59 547

原创介绍MCP的背景及流程

大型语言模型（LLM）虽能处理复杂任务，但缺乏行动能力。模型上下文协议（MCP）作为开源标准，解决了这一痛点，使LLM能与外部系统（数据库、API等）安全交互。MCP采用客户端-服务器架构，通过能力发现机制让LLM动态获取可用工具（如PostgreSQL查询、GitHub操作）。典型工作流程包括协议握手、能力注册和执行操作。目前已有多种MCP服务器实现（Selenium、Docker等），为构建智能代理提供了标准化基础设施。该协议相当于AI领域的"USB接口"，实现了思考与行动的分离协同

2025-06-12 16:07:45 457

原创如何Step-by-Step蒸馏一个LLM模型？

本文逐步Step-by-Step介绍，如何蒸馏一个LLM模型，并且结合Python代码讲解。

2025-04-25 16:53:44 810

原创 OpenAI的client.chat.completions.create()参数讲解

本文介绍OpenAI的client.chat.completions.create方法的参数详解

2025-04-25 14:36:45 1298

原创 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: (‘cannot mix struct and non-struct, non-null values

本文介绍 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: ('cannot mix struct and non-struct, non-null values', 'Conversion failed for column xxx with type object')

2025-03-28 16:53:07 550

原创 DeepSeek-R1是如何训练出来的？

此前，我们介绍了《DeepSeek R1 技术简要总结》，主要结合 DeepSeek R1 的技术报告来梳理了其中的大致流程，没有关注细节。现在我们来着重关注 R1 的训练细节，来看看 R1 究竟是如何一步一步训练出来的。

2025-03-28 16:52:23 1072

原创 python输出class的引用关系图（UML）

本文介绍如何通过python显示class的引用关系。

2025-03-05 09:02:59 934 1

原创 DeepSeek-V3 核心架构源码讲解

文本详细讲解 DeepSeek-V3 的核心架构的源码。

2025-03-05 09:00:59 1746

原创 DeepSeek R1技术报告总结

本文介绍DeekSeek R1技术报告总结。

2025-02-18 15:11:50 1497

原创 DeepSeek 训练提到的Auxiliary-Loss-Free Load Balancing是什么？

本文介绍DeekSeek 的MOE涉及到的Auxiliary-Loss-Free Load Balancing方法。

2025-02-18 15:07:36 1599

原创 fp8、fp16和bp16的区别

本文介绍fp8、fp16以及bp16的区别。

2025-02-05 16:30:16 3080

原创 pandas获取指定日期的行

本文介绍pandas如何获取指定日期的行。

2025-02-05 16:30:00 256

原创 BFCL介绍以及本地模型评测大致流程

本文介绍bfcl的数据集、代码组成以及本地模型的评测大致流程。

2025-01-17 10:43:36 2825 2

原创大语言模型LLM基础扫盲速通版

本文介绍大语言模型LLM的相关基础知识。

2025-01-17 10:42:58 3901

原创 FlashAttention1.0 论文及算法详解

本文介绍 FlashAttention 算法。FlashAttention 是一种用于提高 Transformer 模型中自注意力（self-attention）机制的计算效率和内存效率的算法。它通过减少高带宽内存（HBM）的读写次数来优化性能，特别是在处理长序列数据时。

2024-12-22 13:07:27 1295

原创解决git push报错 fatal: Authentication failed for ‘https://github.com/...‘

本文介绍如何解决git push报错 fatal: Authentication failed for 'https://github.com/...'问题

2024-12-22 13:06:20 1815

原创 Python和curl 如何使用OpenAI 接口访问LLM

本文介绍python和curl 如果通过 openai 接口访问llm大模型。

2024-12-13 20:00:00 2480

原创 LLM的 RAG 分块（Chunking）策略

本文介绍LLM的 RAG 分块（Chunking）策略

2024-12-13 19:45:00 2347 1

原创首次提交本地代码到github全流程完整记录

本文介绍本地代码首次提交到github的全流程记录。

2024-12-05 19:00:00 452

原创 Gradient checkpointing 核心流程详细讲解

本文介绍gradient checkpointing的核心流程。

2024-12-05 19:00:00 1353 2

原创 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝，无法连接”

解决 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝，无法连接”。

2024-11-30 18:39:25 1564

原创 BERT改进版对比：RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa

本文对比介绍几类 BERT 改进版模型： RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa。

2024-11-30 18:34:51 2755

原创 ELECTRA 关键改进点详细讲解

本文主要介绍 ELECTRA 关键改进点的详细讲解。

2024-11-19 15:50:15 1042

原创 ALBERT 关键改进点详细讲解

本文主要介绍 ALBERT 的详细改进点。

2024-11-19 15:37:32 1140

原创 DQN的原理和代码实现

本文介绍DQN的原理以及代码实现。

2024-11-12 15:29:37 1027

原创 RoBERTa 关键改进点详细讲解

本文介绍 RoBERTa 相较于原始 BERT 的详细改进点。

2024-11-12 15:28:12 911

原创「翻译」OpenAI o1 技术报告：提升编程、数学等推理能力

本文介绍 OpenAI o1的技术报告，在数学、编程、理解、科学、安全等各个维度的评测中都有较大提升。

2024-10-29 17:19:57 1396

原创深度学习的知识蒸馏：Distilling the Knowledge in a Neural Network

本文介绍深度学习中的知识蒸馏操作，介绍论文“Distilling the Knowledge in a Neural Network”内容。

2024-10-29 17:18:59 1351

原创量化W8A8和W8A16是什么？

本文介绍量化的w8a8、w8a16的详细内容。

2024-10-16 15:07:55 10112 3

原创 LLM模型保存的常见格式汇总

本文介绍LLM模型常见的保存格式。

2024-10-16 15:07:07 1481

原创模型并行（Model Parallelism）原理详解

本文介绍模型并行（Model Paralleism）原理。

2024-09-30 17:18:53 2310

原创流水线并行（Pipeline Parallelism）原理详解

本文介绍流水线并行的原理和主要流程。

2024-09-30 17:06:03 3583

原创 linux：chown用法详解

本文详细介绍linux的chown用法。

2024-09-26 16:54:13 1716

原创大型语言模型：通过代码生成、调试和 CI/CD 集成改变软件开发的游戏规则

本文介绍 llm 对传统开发人员的冲击，以及如何改变今后的软件行业。

2024-09-26 16:32:48 875

原创 torch.embedding 报错 IndexError: index out of range in self

本文分析torch.embedding 报错IndexError: index out of range in self

2024-09-19 15:42:45 680

原创 Direct Preference Optimization (DPO)原理详解及公式推导

本文讲解Direct Preference Optimization (DPO)原理以及推导过程。

2024-09-19 15:41:45 15571 10

原创 linux: nvidia-smi用法详解

本文介绍linux的nvidia-smi的详细用法。

2024-09-13 14:37:11 15179 1

原创训练中的数据并行DP详细讲解

本文讲解训练中的数据并行，以及如何更新模型状态。

2024-09-13 14:33:16 1550

原创强化学习深入学习（一）：价值函数和贝尔曼方程

本文介绍强化学习的基础概念，包含价值函数和贝尔曼方程。

2024-09-05 16:23:09 3220

原创 linux：ln用法详解

本文介绍linux的ln用法详解。

2024-09-05 16:22:09 1467

BERT的多语言模型，Layer=12，Hidden=768，Heads=12

BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。本资源是BERT开源的基础模型Layer=12，Hidden=768，Heads=12。

2024-03-15

论文，Learning representations by back-propagating errors.pdf

论文《Learning representations by back-propagating errors》由David E. Rumelhart, Geoffrey E. Hinton, 和 Ronald J. Williams共同撰写，并在1986年发表于《Nature》杂志上。这篇论文是深度学习领域中的里程碑之作，它详细介绍了反向传播算法（Backpropagation）的原理和应用。该论文主要贡献包括： 1. **反向传播算法描述**：论文阐述了一个新的、有效的训练多层前馈神经网络的方法。反向传播算法通过利用链式法则，能够计算出网络中每层权重对于整个网络输出误差的梯度，从而使得网络可以根据这些梯度进行优化更新。 2. **学习过程详解**：作者描述了如何在网络完成一次前向传播（从输入到输出的信号传递）之后，通过将误差信息从输出层逐层反向传播至输入层，来调整各隐藏层以及输入层与隐藏层之间的连接权重，以最小化预测输出与目标输出之间的差异。 3. **实际应用价值**：论文展示了反向传播算法在解决非线性函数逼近和模式分类问题上的潜力，这一方法极大地

2024-02-20

爬取此时股票涨幅top40的全量数据，你要的都有！

爬取当前为止涨幅最大的40只股票，按照涨幅倒序排列，其中包含：股票代码、股票名称、相关链接、最新价、涨跌幅、涨跌额、成交量(手)、成交额、振幅、最高、最低、今开、昨收、量比、换手率、市盈率(动态)、市净率。主要的步骤： 1. 选择工具和库：根据数据源的特点，选择合适的爬虫工具和编程语言。Python 是一个常用的选择，其中的采用 selenium 用于模拟浏览器 HTTP 请求获取网页内容，BeautifulSoup 用于解析 HTML内容； 2. 编写爬虫代码： a. 抓取网页数据： b. 发送GET请求到包含股票涨幅信息的页面。 c. 解析返回的HTML页面，找到涨幅排行榜列表的位置，并提取出每只股票的名称、代码、当前价格、涨跌幅等信息。

2024-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人