自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 收藏
  • 关注

原创 知识点记录

1、DDP DP 区别 实践

2021-12-08 17:35:17 210

原创 面试 CV考点汇总

持续更新中1、激活函数有哪些 以及各自优缺点2、 如何防止梯度消失、梯度爆炸3、 如何防止过拟合4、 ResNet 详解5、 BN、LN、GN详解、以及作用6、CNN、Transformer、MLP比较7、Faster RCNN系列8、Yolo系列9、Tensorflow和PyTorch的区别;10、随机森林、Adaboost、XGBboost区别 机器学习范畴 (1)线性回归和逻辑斯蒂回归的联系与区别11、分布式分布部署12、Transformer是相乘还.

2021-09-26 19:46:35 255

原创 【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

RL 并非只能 “打磨” LLM 已有能力,通过两阶段奖励调度 + 持续探索,它能让模型实现顿悟,解锁基座完全不具备的全新算法;但这种突破的泛化能力仍有局限,未来需重点优化跨场景迁移,让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。

2026-05-14 12:00:00 325

原创 【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

核心结论:这篇NeurIPS 2025论文(NVIDIA 团队): ProRL 通过延长稳定的 RL 训练,让模型在新颖、困难、基座不会的任务上,真正学到新的推理策略,实现推理边界的扩展,而不是简单地优化已有能力。主流观点:RL 仅提升基础模型中已有高奖励输出的采样概率,无法解锁新推理能力。本文质疑:过往研究训练步数太少(<500 步)、任务单一,未给模型足够探索时间。RL 能否让 LLM 发现base模型穷尽采样也无法触及的全新推理策略?延长训练能否持续提升推理性能?实现超 2000 步稳定 RL 训练,

2026-05-13 10:00:00 409

原创 【RL】Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

当前的强化学习(RL)训练范式,本质上并未赋予LLM超越其基座(Base Model)的全新推理能力,只是提高了正确路径的采样效率。

2026-05-12 15:30:41 666

原创 【LLM】激活函数

作用:引入非线性,提升表达能力。

2026-05-12 11:55:52 365

原创 极大似然估计通俗理解

https://www.zhihu.com/question/24124998/answer/1547063354

2025-01-11 22:36:09 195

原创 Mac下终端工具iTerm2安装

iterm2

2022-12-20 19:52:07 824

原创 什么是递归、迭代(类比解释)

递归

2022-11-11 17:46:02 671

原创 YOLO系列大全(v1-v7)持续更新

YOLO

2022-11-11 15:40:07 672

原创 LeetCode:动态规划题目的解题技巧

LeetCode

2022-11-01 05:37:06 225

原创 bad case分析

bad case分析

2022-10-28 14:51:35 457

原创 知识蒸馏综述

知识蒸馏

2022-10-27 18:22:18 444

原创 小目标检测

小目标检测

2022-09-30 14:25:52 942

原创 label smoothing 标签平滑

标签平滑

2022-09-29 15:56:10 202

原创 训练集、验证集、测试集

深度学习

2022-09-27 19:06:02 223

原创 公式识别项目汇总

项目汇总

2022-09-27 16:24:33 279

原创 python学习-----multiprocessing多进程模块

多进程

2022-09-13 17:53:41 279

原创 python学习-----logging模块

logging模块

2022-09-09 14:59:53 471

原创 pytorch转onnx, onnx转tensorrt

pytorch 转 onnxonnx转tensorrt

2022-09-06 18:12:16 942

原创 gitlab 总结

gitlab新建项目如何创建 添加master develop分支_尕夜寻欢的博客-CSDN博客_gitlab新建项目怎么创建master分支

2022-09-06 18:10:29 239

原创 python 实用脚本

1、python 解析xlsx文件import xlrdimport osfrom tqdm import tqdm#打开excelwb = xlrd.open_workbook('zhijian.xlsx')#按工作簿定位工作表sh = wb.sheet_by_name('Sheet1')print(sh.nrows)#有效数据行数print(sh.ncols)#有效数据列数print(sh.cell(0,0).value)#输出第一行第一列的值print(sh.row_va.

2022-05-05 17:36:37 170

原创 模型汇总---分类、检测、分割

轻量级网络--MobileNet论文解读_DFan的NoteBook-CSDN博客_mobilenet论文轻量级模型:MobileNet V2_小麦草的博客-CSDN博客_mobilenetv2目标检测目标检测网络CenterNet详解(四) - silence_cho - 博客园分割FCN UNet图像语义分割入门+FCN/U-Net网络解析 - 知乎ParseNet【图像分割模型】全局特征与局部特征的交响曲—ParseNet - 知乎OCRNet【语义

2022-02-14 16:47:20 1851

原创 未解决疑惑?

1. 偏差 方差Resnet到底在解决一个什么问题呢? - 知乎

2022-02-14 16:24:52 224

原创 NLP知识

1、词袋模型、N-gram模型词袋模型和N-gram模型 | Astropeak

2022-01-08 22:46:52 680

原创 leetcode-----解题思路汇总

1、链表:1)哑节点;作用:处理头节点的边界问题,减少代码执行异常的可能性。2)双指针;

2022-01-08 00:10:28 474

原创 OCR知识框架构建(文本检测、文本识别、End2End)(更新中)

1、CRNN+CTC2、CRNN+Attention3、CRNN+ADE解码方式不同而已

2022-01-06 14:18:32 1843

原创 图像处理-----HOG

每周算法学习之HOG算法

2021-12-22 15:42:20 1556

原创 GAN系列

1、GAN2、CGAN3、DCGAN4、Pix2Pix5、CycleGAN参考链接:通俗理解GAN(一):把GAN给你讲得明明白白 - 知乎GAN学习指南:从原理入门到制作生成Demo - 知乎GAN论文逐段精读【论文精读】_哔哩哔哩_bilibiliWGAN的来龙去脉 - 知乎既能生成图像又能进行分类的ACGAN - 知乎...

2021-12-20 13:50:27 271

原创 基础知识-----VAE

变分自编码器(一):原来是这么一回事 - 科学空间|Scientific SpacesSelf-Supervised Learning 超详细解读 (三):BEiT:视觉BERT预训练模型 - 知乎

2021-12-14 18:59:37 1028

原创 基础知识-----马尔可夫模型

马尔可夫链模型是什么? - 知乎

2021-12-12 16:48:09 1249

原创 深度学习基础

为什么要使用膨胀卷积:潜在问题:1、gridding effect 在感受野区域的采样值不连续改进:对比膨胀卷积(Dilated convolution)详解_哔哩哔哩_bilibili

2021-12-12 10:16:11 372

原创 pytorch-----DP、DDP区别

pytorch多gpu并行训练 - 知乎

2021-12-08 16:29:27 2060

原创 pytorch-----构建网络模型的若干种方式总结

pytorch学习: 构建网络模型的几种方法 - denny402 - 博客园

2021-12-08 10:58:13 1015

原创 pytorch-----初始化方法

PyTorch 学习笔记(四):权值初始化的十种方法 - 知乎

2021-12-07 10:53:43 1072

原创 文本检测-----PAN

PAN(PSENet2) - 知乎PANNet像素聚合网络损失函数讲解 - 知乎PAN论文阅读笔记 - you-wh - 博客园PAN(像素聚合网络) - 知乎https://github.com/WenmuZhou/PAN.pytorch

2021-12-06 17:08:45 2507

原创 机器学习-----GBDT xgboost

机器学习-一文理解GBDT的原理-20171001 - 知乎

2021-12-05 09:43:53 518

原创 机器学习-----随机森林

什么是随机森林?【知多少】_哔哩哔哩_bilibili

2021-12-04 15:48:32 386

原创 损失函数汇总

语义分割之dice loss深度分析(梯度可视化) - 知乎

2021-11-22 15:52:25 821

原创 Transformer 细节解答

NLP_ability/史上最全Transformer面试题.md at master · DA-southampton/NLP_ability · GitHubNLP_ability/答案解析(1)—史上最全Transformer面试题:灵魂20问帮你彻底搞定Transformer.md at master · DA-southampton/NLP_ability · GitHub...

2021-11-21 14:29:21 404

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除