银河以北呀-CSDN博客

原创机器学习-MNIST

MNIST是pytorch框架自带的一个手写0-9分类数据集，其中训练集5w张，测试集1w张，每张图片是28*28像素的单通道图片，本文将用全连接线性神经网络和卷积神经网络两种方式来实现对MNIST数据集的分类。

2024-10-11 23:49:28 1636

原创思维链提示：激发大语言模型推理能力的突破性方法

思维链提示是大语言模型推理能力的一个重要突破。通过简单的提示工程，就能显著提升模型在复杂推理任务上的表现，这为AI系统的实际应用开辟了新的可能性。随着模型规模的继续增长和方法的不断改进，我们有理由期待更强大、更可靠的AI推理系统。

2025-06-02 15:40:04 923

原创当AI自我纠错：一个简单的“Wait“提示如何让模型思考更深、推理更强

论文《s1: Simple test-time scaling》由Niklas Muennighoff等人提出，探讨了通过测试时间扩展提升大语言模型性能的简单方法。研究核心在于预算强制技术，通过控制模型生成思考标记的数量，优化推理过程。作者还精心策划了s1K数据集，包含1,000个高质量、高难度且多样性的问题，用于模型训练。实验表明，s1-32B模型在多个推理基准上表现出色，尤其在AIME24、MATH500和GPQA Diamond上，随思考时间增加，准确率显著提升。预算强制方法在控制性、扩展性和性能上均

2025-05-18 23:55:35 1064

原创当语言模型学会犯错和改正：搜索流(SoS)方法解析

语言模型的能力日新月异，但它们在执行复杂规划任务时仍面临着明显的局限。这是因为大多数训练数据只展示了最终的"正确答案"，而非解决问题的完整过程。想象一下，如果我们只能看到数学题的最终答案，而从不知道解题过程中的尝试、错误与修正，我们能真正学会解题吗？斯坦福大学、MIT和哈维穆德学院的研究团队在论文《Stream of Search (SoS): Learning to Search in Language》中提出了一个新颖观点：语言模型需要学习"如何搜索"，包括探索、错误和回溯的完整过程。

2025-05-17 21:08:19 597

原创小模型也能成为数学推理高手：揭秘rStar-Math自演化深度思考的奇迹

"思考"比"记忆"更重要：小模型如何在数学竞赛中进入前20%

2025-05-14 23:46:41 556

原创自我奖励语言模型：突破人类反馈瓶颈

传统语言模型对齐方法依赖人类反馈数据训练固定的奖励模型，这使得AI能力受限于人类标注的质量和数量。Meta和NYU的研究者提出了突破性的"自我奖励语言模型"框架，让语言模型同时具备回答问题和评估回答质量的能力，形成自我改进的良性循环。实验表明，经过仅三次迭代训练，基于Llama 2 70B的自我奖励模型在AlpacaEval 2.0基准测试中超越了Claude 2、Gemini Pro和GPT-4 0613等强大模型。

2025-05-13 14:32:17 827

原创通过推测搜索加速大型语言模型推理 (SpecSearch) 论文总结

SpecSearch：革命性双层推测框架，让LLM思考飞速提升！本文提出首个双层推测搜索框架，在思考和令牌两个层面同时加速大模型推理。通过创新的质量保持拒绝机制，SpecSearch实现了高达3.35倍的加速，同时保持模型推理质量不降低。实验表明，小型模型可生成40%超越大模型平均水平的思考，基于此设计的动态阈值筛选机制完美平衡速度与质量。这一突破使复杂推理在资源受限场景下成为可能，为LLM实时应用开辟新天地。

2025-05-10 15:51:10 775

原创 Inference-Time Scaling for Generalist Reward Modeling

清华联手deepseek推出新的通用强化学习奖励标准

2025-05-07 22:12:37 703

原创 DeepSeek系列论文解读四之DeepSeek Prover V2

创新点贡献描述冷启动推理数据生成方法形式化优先，反向配对非正式语言，构建更严谨的训练样本子目标驱动的递归证明流程支持复杂定理分层解构，大幅提升模型效率与可扩展性非 CoT + CoT 模型协同训练策略兼顾速度与解释性，适应多场景使用结构奖励强化学习框架（GRPO）强化“多步逻辑链”保留，提升复杂任务稳定性ProverBench 数据集首次引入教材与竞赛混合评测集，扩大了评估覆盖范围。

2025-05-07 11:26:34 664

原创 Llama3垂直领域微调-中医问答

微调llama3实现中文医疗问答

2025-03-13 00:20:56 963

原创微调BERT模型实现文本分类

模型微调只是针对某种下游任务，针对性的强化模型的能力，但是微调之后的模型在泛化能力上有所下降。

2025-02-23 00:13:17 848

原创 DeepSeek系列论文解读三之DeepSeek R1

这篇论文聚焦于通过强化学习提升大语言模型推理能力，介绍了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。前者基于大规模强化学习训练，不依赖监督微调，展现出强大推理能力，但存在可读性差和语言混合的问题；后者通过引入多阶段训练和冷启动数据，解决了上述问题，在推理任务上达到了与 OpenAI-o1-1217 相当的性能。论文还探索了从 DeepSeek-R1 到小模型的蒸馏，经蒸馏的小模型在基准测试中表现优异。

2025-02-14 22:14:01 664

原创 DeepSeek系列论文解读二之DeepSeek V3

DeepSeek-V3是一个大型的专家混合(MoE)语言模型，总共有671B个参数，每个令牌激活37B个参数。它采用了多头潜在注意力(MLA)和DeepSeekMoE架构进行高效推理和经济高效的训练，这些在DeepSeek-V2中得到了验证。DeepSeek-V3还开创了一种无辅助损失策略来实现负载平衡，并使用多令牌预测训练目标来提高性能。该模型是在140万亿个高质量多样的令牌上预训练的，然后进行了监督微调和强化学习阶段。

2025-02-14 00:10:50 1021 2

原创 DeepSeek系列论文总结

该项目旨在推进开源大型语言模型(LLM)的长期发展。作者广泛研究了LLM的缩放规律，重点关注批量大小、学习率、数据和模型规模的缩放行为。从头开始构建开源LLM，收集了主要由中文和英文组成的2万亿令牌数据集。DeepSeek LLM模型在基准测试中表现出色，尤其在代码、数学和推理等领域优于LLaMA-2 70B。作者还讨论了他们的微调方法，包括监督式微调(SFT)和直接偏好优化(DPO)，这些方法使得DeepSeek Chat模型在开放式评估中优于GPT-3.5。

2025-02-13 00:24:39 571

原创 python-贪吃蛇

贪吃蛇

2024-11-03 23:01:56 980

原创协调过滤算法-电影推荐

协同过滤（Collaborative Filtering）是推荐系统中一种非常基础的方法，它主要分为两个方面：实时的协同作用和预先的过滤处理。在线协同指的是利用实时数据来识别用户可能感兴趣的商品，而离线过滤则是筛选掉一些不太适合推荐的内容，例如那些评分较低的商品，或者用户已经购买过的商品。在协同过滤的应用中，我们通常面对的是m个商品和m个用户的数据集，但只有部分用户对部分商品进行了评分，留下了许多空白的评分数据。

2024-11-02 10:56:01 1738