- 博客(230)
- 收藏
- 关注
原创 理解LLM所谓的“推理”能力
本文探讨了大语言模型(LLM)的推理能力定义及提升方法。作者将推理定义为处理需要多步骤思考的复杂问题,如数学证明和谜语解答,而非简单的事实性问题。目前提升推理能力主要有四种方法:(1)推理时间扩展技术,如思维链提示和多答案投票;(2)纯强化学习,如DeepSeek-R1-Zero采用的跳过监督微调直接强化训练;(3)结合监督微调和强化学习的标准流程,如DeepSeek-R1;(4)模型蒸馏技术。文章指出,专用推理模型适合处理复杂推理任务,但不适用于简单问答
2025-06-12 16:08:59
547
原创 介绍MCP的背景及流程
大型语言模型(LLM)虽能处理复杂任务,但缺乏行动能力。模型上下文协议(MCP)作为开源标准,解决了这一痛点,使LLM能与外部系统(数据库、API等)安全交互。MCP采用客户端-服务器架构,通过能力发现机制让LLM动态获取可用工具(如PostgreSQL查询、GitHub操作)。典型工作流程包括协议握手、能力注册和执行操作。目前已有多种MCP服务器实现(Selenium、Docker等),为构建智能代理提供了标准化基础设施。该协议相当于AI领域的"USB接口",实现了思考与行动的分离协同
2025-06-12 16:07:45
457
原创 OpenAI的client.chat.completions.create()参数讲解
本文介绍OpenAI的client.chat.completions.create方法的参数详解
2025-04-25 14:36:45
1298
原创 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: (‘cannot mix struct and non-struct, non-null values
本文介绍 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: ('cannot mix struct and non-struct, non-null values', 'Conversion failed for column xxx with type object')
2025-03-28 16:53:07
550
原创 DeepSeek-R1是如何训练出来的?
此前,我们介绍了《DeepSeek R1 技术简要总结》,主要结合 DeepSeek R1 的技术报告来梳理了其中的大致流程,没有关注细节。现在我们来着重关注 R1 的训练细节,来看看 R1 究竟是如何一步一步训练出来的。
2025-03-28 16:52:23
1072
原创 DeepSeek 训练提到的Auxiliary-Loss-Free Load Balancing是什么?
本文介绍DeekSeek 的MOE涉及到的Auxiliary-Loss-Free Load Balancing方法。
2025-02-18 15:07:36
1599
原创 FlashAttention1.0 论文及算法详解
本文介绍 FlashAttention 算法。FlashAttention 是一种用于提高 Transformer 模型中自注意力(self-attention)机制的计算效率和内存效率的算法。它通过减少高带宽内存(HBM)的读写次数来优化性能,特别是在处理长序列数据时。
2024-12-22 13:07:27
1295
原创 解决git push报错 fatal: Authentication failed for ‘https://github.com/...‘
本文介绍如何解决git push报错 fatal: Authentication failed for 'https://github.com/...'问题
2024-12-22 13:06:20
1815
原创 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接”
解决 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接”。
2024-11-30 18:39:25
1564
原创 BERT改进版对比:RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa
本文对比介绍几类 BERT 改进版模型: RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa。
2024-11-30 18:34:51
2755
原创 「翻译」OpenAI o1 技术报告:提升编程、数学等推理能力
本文介绍 OpenAI o1的技术报告,在数学、编程、理解、科学、安全等各个维度的评测中都有较大提升。
2024-10-29 17:19:57
1396
原创 深度学习的知识蒸馏:Distilling the Knowledge in a Neural Network
本文介绍深度学习中的知识蒸馏操作,介绍论文“Distilling the Knowledge in a Neural Network”内容。
2024-10-29 17:18:59
1351
原创 torch.embedding 报错 IndexError: index out of range in self
本文分析torch.embedding 报错IndexError: index out of range in self
2024-09-19 15:42:45
680
原创 Direct Preference Optimization (DPO)原理详解及公式推导
本文讲解Direct Preference Optimization (DPO)原理以及推导过程。
2024-09-19 15:41:45
15571
10
BERT的多语言模型,Layer=12,Hidden=768,Heads=12
2024-03-15
论文,Learning representations by back-propagating errors.pdf
2024-02-20
爬取此时股票涨幅top40的全量数据,你要的都有!
2024-01-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人