King的王国-CSDN博客

持续更新中1、激活函数有哪些以及各自优缺点2、如何防止梯度消失、梯度爆炸3、如何防止过拟合4、 ResNet 详解5、 BN、LN、GN详解、以及作用6、CNN、Transformer、MLP比较7、Faster RCNN系列8、Yolo系列9、Tensorflow和PyTorch的区别；10、随机森林、Adaboost、XGBboost区别机器学习范畴 (1)线性回归和逻辑斯蒂回归的联系与区别11、分布式分布部署12、Transformer是相乘还.

2021-09-26 19:46:35 255

原创【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

RL 并非只能 “打磨” LLM 已有能力，通过两阶段奖励调度 + 持续探索，它能让模型实现顿悟，解锁基座完全不具备的全新算法；但这种突破的泛化能力仍有局限，未来需重点优化跨场景迁移，让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。

2026-05-14 12:00:00 325

原创【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

核心结论：这篇NeurIPS 2025论文（NVIDIA 团队）: ProRL 通过延长稳定的 RL 训练，让模型在新颖、困难、基座不会的任务上，真正学到新的推理策略，实现推理边界的扩展，而不是简单地优化已有能力。主流观点：RL 仅提升基础模型中已有高奖励输出的采样概率，无法解锁新推理能力。本文质疑：过往研究训练步数太少（<500 步）、任务单一，未给模型足够探索时间。RL 能否让 LLM 发现base模型穷尽采样也无法触及的全新推理策略？延长训练能否持续提升推理性能？实现超 2000 步稳定 RL 训练，

2026-05-13 10:00:00 409

原创【RL】Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

当前的强化学习（RL）训练范式，本质上并未赋予LLM超越其基座（Base Model）的全新推理能力，只是提高了正确路径的采样效率。

2026-05-12 15:30:41 666

原创【LLM】激活函数

作用：引入非线性，提升表达能力。

2026-05-12 11:55:52 365

原创极大似然估计通俗理解

https://www.zhihu.com/question/24124998/answer/1547063354

2025-01-11 22:36:09 195

原创 Mac下终端工具iTerm2安装

iterm2

2022-12-20 19:52:07 824

原创什么是递归、迭代（类比解释）

递归

2022-11-11 17:46:02 671

原创 YOLO系列大全（v1-v7）持续更新

YOLO

2022-11-11 15:40:07 672

原创 LeetCode:动态规划题目的解题技巧

LeetCode

2022-11-01 05:37:06 225

原创 bad case分析

bad case分析

2022-10-28 14:51:35 457

原创知识蒸馏综述

知识蒸馏

2022-10-27 18:22:18 444

原创小目标检测

小目标检测

2022-09-30 14:25:52 942

原创 label smoothing 标签平滑

标签平滑

2022-09-29 15:56:10 202

原创训练集、验证集、测试集

深度学习

2022-09-27 19:06:02 223

原创公式识别项目汇总

项目汇总

2022-09-27 16:24:33 279

原创 python学习-----multiprocessing多进程模块

多进程

2022-09-13 17:53:41 279

原创 python学习-----logging模块

logging模块

2022-09-09 14:59:53 471

原创 pytorch转onnx, onnx转tensorrt

pytorch 转 onnxonnx转tensorrt

2022-09-06 18:12:16 942

原创 gitlab 总结

gitlab新建项目如何创建添加master develop分支_尕夜寻欢的博客-CSDN博客_gitlab新建项目怎么创建master分支

2022-09-06 18:10:29 239

原创 python 实用脚本

1、python 解析xlsx文件import xlrdimport osfrom tqdm import tqdm#打开excelwb = xlrd.open_workbook('zhijian.xlsx')#按工作簿定位工作表sh = wb.sheet_by_name('Sheet1')print(sh.nrows)#有效数据行数print(sh.ncols)#有效数据列数print(sh.cell(0,0).value)#输出第一行第一列的值print(sh.row_va.

2022-05-05 17:36:37 170

原创模型汇总---分类、检测、分割

轻量级网络--MobileNet论文解读_DFan的NoteBook-CSDN博客_mobilenet论文轻量级模型：MobileNet V2_小麦草的博客-CSDN博客_mobilenetv2目标检测目标检测网络CenterNet详解(四) - silence_cho - 博客园分割FCN UNet图像语义分割入门+FCN/U-Net网络解析 - 知乎ParseNet【图像分割模型】全局特征与局部特征的交响曲—ParseNet - 知乎OCRNet【语义

2022-02-14 16:47:20 1851

原创未解决疑惑？

1. 偏差方差Resnet到底在解决一个什么问题呢？ - 知乎

2022-02-14 16:24:52 224

原创 NLP知识

1、词袋模型、N-gram模型词袋模型和N-gram模型 | Astropeak

2022-01-08 22:46:52 680

原创 leetcode-----解题思路汇总

1、链表：1）哑节点；作用：处理头节点的边界问题，减少代码执行异常的可能性。2）双指针；

2022-01-08 00:10:28 474

原创 OCR知识框架构建（文本检测、文本识别、End2End）（更新中）

1、CRNN+CTC2、CRNN+Attention3、CRNN+ADE解码方式不同而已

2022-01-06 14:18:32 1843

原创图像处理-----HOG

每周算法学习之HOG算法

2021-12-22 15:42:20 1556

原创 GAN系列

1、GAN2、CGAN3、DCGAN4、Pix2Pix5、CycleGAN参考链接：通俗理解GAN（一）：把GAN给你讲得明明白白 - 知乎GAN学习指南：从原理入门到制作生成Demo - 知乎GAN论文逐段精读【论文精读】_哔哩哔哩_bilibiliWGAN的来龙去脉 - 知乎既能生成图像又能进行分类的ACGAN - 知乎...

2021-12-20 13:50:27 271

原创基础知识-----VAE

变分自编码器（一）：原来是这么一回事 - 科学空间|Scientific SpacesSelf-Supervised Learning 超详细解读 (三)：BEiT：视觉BERT预训练模型 - 知乎

2021-12-14 18:59:37 1028

原创基础知识-----马尔可夫模型

马尔可夫链模型是什么？ - 知乎

2021-12-12 16:48:09 1249

原创深度学习基础

为什么要使用膨胀卷积：潜在问题：1、gridding effect 在感受野区域的采样值不连续改进：对比膨胀卷积(Dilated convolution)详解_哔哩哔哩_bilibili

2021-12-12 10:16:11 372

原创 pytorch-----DP、DDP区别

pytorch多gpu并行训练 - 知乎

2021-12-08 16:29:27 2060

原创 pytorch-----构建网络模型的若干种方式总结

pytorch学习：构建网络模型的几种方法 - denny402 - 博客园

2021-12-08 10:58:13 1015

原创 pytorch-----初始化方法

PyTorch 学习笔记（四）：权值初始化的十种方法 - 知乎

2021-12-07 10:53:43 1072

原创文本检测-----PAN

PAN(PSENet2) - 知乎PANNet像素聚合网络损失函数讲解 - 知乎PAN论文阅读笔记 - you-wh - 博客园PAN（像素聚合网络） - 知乎https://github.com/WenmuZhou/PAN.pytorch

2021-12-06 17:08:45 2507

原创机器学习-----GBDT xgboost

机器学习-一文理解GBDT的原理-20171001 - 知乎

2021-12-05 09:43:53 518

原创机器学习-----随机森林

什么是随机森林？【知多少】_哔哩哔哩_bilibili

2021-12-04 15:48:32 386

原创损失函数汇总

语义分割之dice loss深度分析（梯度可视化） - 知乎

2021-11-22 15:52:25 821

原创 Transformer 细节解答

NLP_ability/史上最全Transformer面试题.md at master · DA-southampton/NLP_ability · GitHubNLP_ability/答案解析(1)—史上最全Transformer面试题：灵魂20问帮你彻底搞定Transformer.md at master · DA-southampton/NLP_ability · GitHub...

2021-11-21 14:29:21 404

空空如也

空空如也