学弟-CSDN博客

原创【置顶】博客说明

通俗的讲就是不追求一步到位，也不追求什么都懂。不同阶段的理解可能不一样，有时候甚至会推翻自己之前说的，那就再记一笔。大概是这样一种节奏：先用尽可能短的时间把一件事搞“清楚”，哪怕搞出来的东西有点糙、像一堆“垃圾”，也没关系，先有再说，后面慢慢改、慢慢补。该博客的定位是：“不求甚解，每有会意，便欣然记之。如果你不小心点进来了，不喜欢也正常，轻拍就好。

2026-04-27 22:01:19 32

这三点都是很重要的，因为它们结合起来才是tranfromer架构需要positon编码的原因，也是论文题目《attention is all you need》口气这么大的原因。因为此时除了attention这一个结构，transformer中其余的所有操作：add, layernorm, 残差，feed forward, linear都是point-wise操作（再强调一下，这里的feed forward和linear不是cver眼中的全连接层或者说MLP层，至此MLP, CNN, RNN都不存在了，只有

2026-04-27 21:33:06 552

原创【内涵】NaVIT解读

[内涵]VIT源码解读]中介绍了目前在LLM/VLLM领域已经占据主流地位的VIT。但是在VIT中将不同分辨率强行resize到同一个size的方式，显然直觉上有点生硬。在QWenvl系列中，采用的是VIT的改进版本，支持任意分辨率图像输入的NaVIT。

2026-04-21 21:24:53 571

原创【内涵】VIT解读

VIT现在几乎已经取代了reset在AI1.0时代的地位，成为了llm/vllm领域中大家默认使用的backbone。本篇文章是通过源码的角度，来对vit这一部件的梳理。

2026-04-20 01:26:47 544

原创一致性问题pipeline: 一致性问题梳理

截止到目前，在工作中遇到了至少5次的一致性比较问题，其中有4次是自己亲身参与的，有1次则是旁观者的身份。本篇文章是对这一典型任务的梳理。

2025-01-14 18:10:10 639

原创软件工程pipeline梳理

以算法/软件工程师为代表的技术工种往往会存在以下的“误区”：“需求沟通是扯皮”，“开会是浪费时间”，“代码review就是走个过场”。上述认知的获得，很大程度上是因为缺乏对一个完整的软件/项目周期的认识，从而拘泥于“写代码”这一“有技术含量”的点上。一叶遮目，不见泰山。梳理软件工程的pipeline可以强化自己的全局意识，更接近事物的真实面貌。

2024-10-10 12:36:36 1234

原创通过Github Actions实现代码的持续集成（Continuous Integration/CI）(2)

通过集成的持续化和自动化，可以得到如下好处：1.将软件工程师从繁琐的重复操作中解放出来；2.解放软件工程师的大脑，避免记忆一些没必要的指令、账户和密码发；3.主观上增强软件工程师版本发布的信心，客观上提高了软件工程师版本发布的质量。反过来思考，应该也以上述三点为出发点，反过来在尚没有github actions workflow的领域推广、搭建类似该思想的机制。

2024-10-07 19:18:26 1115

原创通过Github Actions实现代码的持续集成（Continuous Integration/CI）(1)

CI之所以重要，是因为它是软件工程领域一个公认的思想”每日构建和冒烟测试“的具体实现。可以在CI中规范不同开发者的代码撰写习惯、及早的返现代码变动的错误、粘合各种构建、集成的繁琐重复工作并自动完成以及增强开发者对代码仓库质量的信心。这些操作都是被push或者tag等git操作自动触发。自动触发，这是一种优雅的计算机思维的体现。。

2024-09-23 23:26:37 932

原创【pipeline】时间规划与精力分配（业务篇）

目前工作中的一个现状是，在季度开始的时候需要自己思考方向、规划工作；可能还需要自己说服上级和产品业务侧争取资源。本篇文章是对近期一次季度规划及评审经历的一次复盘和反思。感觉暂时拿捏不准应该起一个什么样的题目，暂定为无题。

2024-07-20 22:53:36 851

原创【快捷】：通过胶水语言实现工作中测试流程并行、加速

计算机思维的要点之一是自动化。如果能够有将一切事务pipeline化之后，然后再自动化的想法以及行动，这样在我看来就具备了一定程度的计算机思维。而这种思维是至关重要的。本篇博客记录了近期在实际工作中的一次有意思的尝试记录。

2024-07-14 18:43:51 853

原创内涵：文本识别论文之基础构件LSTM学习

lstm作为文本识别算法中经常用到的一个基础构件，对于更好的理解和学习文本识别论文，具有重要的意义。

2022-10-15 18:05:31 933

原创内涵：文本识别论文之Aster解读

ASTER是独立于另一篇博文CTC文本识别的另一篇经典识别论文。它的全称是~~A~~ ttentional ~~S~~ cene ~~Te~~ xt Recognizer with Flexible ~~R~~ ectification。这篇文章从两个维度介绍了Aster论文：整体和核心模块TPS细节。接下来计划补充另外两个维度：Attentional 文本识别和基于CTC的CRNN对比以及从Aster这篇论文中获得的启发。

2022-09-26 10:14:33 2908

原创内涵：YOLO系列解读（上）-----YOLOv1到YOLOv3梳理

写这篇文章的契机是6月底和7月初，Yolo v6和Yolo v7版本相继发布。其中Yolo v7还得到了darknet官方的背书。Yolo系列从2015年提出的Yolo(You Only Look Once),到如今已经经历了7年。本篇博客仅仅是对Yolo系列中，Yolov1, Yolov2和Yolov3的梳理。......

2022-08-30 10:34:30 2446

原创内涵：文本识别论文CRNN

本文解读的是一篇来自2015年的一篇文字识别论文。里面的CTC Loss相关内容的理解有一定的挑战性，本文是对自己当前理解的一份记录。并通过pytorch和自己手算结果的对比来验证自己理解的正确性。

2022-08-19 21:10:18 1739

原创 ConvNext用于目标检测

ConvNext目标检测部分的代码，作者仅提供了部分python文件，如果想将该部分代码正常跑起来，会涉及ConvNext、Swin-Transformer-Object-Detection和Mmdetection多个仓库。本篇文章分享了本人组装好的一个用于object detection的ConvNext仓库，方便目标检测领域的读者直接安装、使用。

2022-05-20 16:39:24 2063 7

原创内涵：STN(spatial transformer network)论文与源码理解

近期对2015年的一篇较为经典的论文"spatial transformer networks(stn)"进行了研究。本博文是stn阅读心得的记录。在第二小节中，会描述stn的实现细节，包括三大组成构件：localisation network, Grid generator, Sampler。在第三小节中会通过跟踪stn源码（pytorch版本）来验证自己的理解。在第四部分作为扩展部分，会尝试从数学角度研究STN的可导性。

2022-05-13 02:03:29 4219 1

原创内涵：算法学习之gumbel softmax

这里写自定义目录标题1. gumbel_softmax有什么用呢?2.argmax(x)是什么?为什么不可导?3. 引入随机性：gumbel分布4. 解决不可导：gumbel_softmax1. gumbel_softmax有什么用呢?假设如下场景:模型训练过程中, 网络的输出为p = [0.1, 0.7, 0.2], 三个数值分别为"向左", “向上”, "向右"的概率。我们的决策可能是y = argmax§, 也即选择"向上"这条决策。但是，这样做会有两个问题:argmax()函数是不可导

2022-01-20 21:28:21 23078 4

原创实际开发场景下Git操作流程

利用git对代码的版本管理是一个程序员基本技能之一。本文按照实际研发场景下的情形，描述一下具体每个步骤上相关的git 指令和注意事项。

2021-05-17 07:42:40 1033 2

原创内涵：高性能网络之shufflenet v2

1.概述这篇文章是高性能神经网络的经典论文之一shufflenet-v2, 发表于18年7月份，由旷视的马宁宁，孙坚等人提出。21年的RepVgg论文中的一些理论基础很多也是来自于这篇文章。这篇文章层层递进的可以总结为如下这样几个问题：高性能网络在做什么？之前高性能网络设计是怎么做的？这样设计的依据目标函数是否存在问题？高性能网络的真实的设计目标是什么？依据设计目标，进行对比实验，可以得到一些有用的怎样的设计准则？依据提出的设计准则，设计了一个网络，效果是否可以达到预期？2. 高效能网络

2021-02-28 18:39:03 2895

原创内涵：目标检测之ATSS

1. 论文1.1 文章讲了什么目前目标检测领域的做法分为两大类：anchor-based(one-stage vs two-stage)和anchor-free(keypoint-based vs center-based)。anchor-based系列的文章有例如R-CNN系列和YOLO系列。而anchor-free系列的文章是由于FPN和Focal loss的出现，也变得流行起来（大概在2019年初的样子）。atss这篇文章认为两者的本质其实并没有太大差异，一些看似差异的操作其实并不会对最终的性

2021-01-31 14:17:26 3634 1

原创内涵：半监督学习之Temporal Ensembling For Semi-supervised Learning

这篇文章是ICLR2017的一篇文章，是半监督学习领域的一篇经典文章，以这篇文章作为进入半监督学习的一个切入点。在这篇文章中，作者的将其工作描述为self-ensembling，而具体来讲有两点：1. Π model 2. temporal ensembling。We describe two ways to implement self-ensembling, Π-model和temporal ensembling. Π model的思路来源比较直接，就是我们如何去使用无标签数据来进行

2020-12-27 12:08:22 6576 8

原创【快捷】通过指定CPU的分配解决A100服务器上多训练任务核心争抢导致的训练速度慢的问题

最近，正赶上某一个DDL, 大家都在开足马力使用显卡疯狂跑实验，突然发现原先的实验配置在相同的4090机器上训练速度要慢2~3倍，一次实验的时长来到了9天，这有点难以接收。幸好有小伙伴帮忙搞到了一台4卡的A100资源，可以用。欣喜之余，也遇到了问题：如果我启一个任务，那么训练速度是正常的；如果在两张显卡上起分别起两个训练实验，则这两个训练实验的训练时长都会加倍，显然是两个实验出现了互相影响。也不能这么稀缺的显卡资源，每次只跑一个实验，感觉有种端着金饭碗要饿死的感觉。经过和AI的交流，4090的集群的训练问题

2026-05-01 18:57:15 345

原创【内涵】深度学习中的三种变量及pytorch中对应的三种tensor

程序是对现实世界/需求的映射，pytorch也不例外。在深度学习领域中，一般所需要的三种变量及pytorch中对应的三种tensor总结如下

2026-04-20 00:52:58 95

原创【内涵】拆解QWenvl

拆解QWenvl模型

2026-04-08 16:24:56 125

原创【内涵】Score-based Diffusion Generative Models

基于分数的扩散生成模型是一种新兴的生成方法，通过逐步扰动数据分布并学习反向去噪过程来生成样本。该模型利用分数函数（数据分布对数密度的梯度）指导生成过程，通过马尔可夫链逐步将噪声转化为目标数据分布。相比传统生成模型，它具有理论保证强、训练稳定等优势，在图像生成等领域表现出色。核心创新在于将扩散过程转化为对分数函数的估计，并通过反向过程实现高质量样本生成。

2025-11-27 16:38:57 440

原创【内涵】基于能量模型

能量模型（Energy Based Models）是一类基于能量函数构建的概率生成模型，通过定义能量函数来刻画数据分布。其核心思想是将数据点的概率与能量值负相关，低能量对应高概率。这类模型无需显式归一化，具有建模灵活性，可应用于生成、分类等任务。典型代表包括受限玻尔兹曼机（RBM）和现代改进方法。虽然训练过程涉及计算复杂的配分函数，但通过对比散度等近似方法可有效优化。能量模型为复杂数据分布建模提供了统一框架，是深度学习领域的重要研究方向。

2025-11-27 16:37:26 408

原创【内涵】：隐式生成模型

摘要：本文探讨了生成对抗网络（GAN）相关的统计方法，包括双样本检验、嵌入技术和F-散度。双样本检验用于评估数据分布的差异性，嵌入技术将数据映射到低维空间便于分析，F-散度则衡量概率分布间的差异。这些方法为GAN的训练和评估提供了理论基础，有助于提升生成模型的性能。

2025-11-27 16:34:23 405

原创【内涵】：潜变量模型

本文介绍了变分学习及其相关方法。变分学习通过优化变分下界来近似复杂概率分布。摊销推断利用神经网络参数化推理过程，提高计算效率。变分自编码器（VAE）结合了变分推断和神经网络，通过编码器-解码器结构实现数据生成和特征学习，在生成模型中具有重要应用。这些方法为概率建模提供了有效的近似推断框架。

2025-11-27 16:31:28 297

原创【内涵】深度生成式模型之基于完全观测似然模型

【摘要】完全观测似然模型是深度生成式模型的重要分支，主要包括两类：自回归模型（Autoregressive）通过序列化条件概率生成数据；基于流的模型（Flow-based models）利用可逆变换构建精确似然函数。两类方法均能直接优化观测数据的对数似然，在生成质量和概率计算方面表现优异，但存在计算效率与表达能力的不同权衡。

2025-11-27 16:24:41 171

原创【内涵】：AutoPage

本文介绍了一个基于论文自动生成项目主页的工具AutoPage。该工具整合了文档解析模型、大语言模型和多模态大模型（推荐使用Gemini而非千问），通过三个模型的协同工作实现功能。作者展示了生成效果示例并提供了HuggingFace平台的使用指南。文章也引发了对这类Agent型研究学术价值的思考，指出其创新性可能更多体现在模型组合而非单一算法突破。作者观察到类似工具如Paper2Poster和PPTAgent已被顶级会议接收，但对其核心价值存疑，认为未来发展方向可能依赖于底层调用模型的持续升级。

2025-11-04 16:14:19 364

原创【内涵】：一些零散的概念与想法

一些零散的概念和想法

2025-09-15 15:36:23 143

原创快捷：常见ocr学术数据集预处理版本汇总（适配mmocr）

OCR学术数据集预处理版本汇总（适配MMOCR）当前整理了Syn90k数据集预处理版本，已适配MMOCR框架： Syn90k：下载地址（夸克网盘），状态正常，数据来源OpenDataLab 其余数据集指标验证工作仍在进行中，将持续更新其他学术数据集预处理版本。该汇总旨在为OCR研究者提供便捷的预处理数据资源。

2025-09-06 19:00:07 364

原创多模态大模型研究pipeline

2025-08-27 10:47:54 402

原创【pipeline实践】基于mmocr和文本合成器快速训练一个自己的文本识别器

【pipeline实践】基于mmocr和文本合成器快速训练一个自己的文本识别器。

2025-04-29 09:43:48 307

原创优雅：知识学习与文献阅读

优雅：知识学习与文献阅读。

2025-04-25 17:08:33 132

原创优雅：库的精准管理

2025-04-25 17:05:05 167

原创内涵：python中的import

包必然不可直接使用，需要至少import到模块，此时是最为规范的使用方式（推荐），在使用的时候模块名.函数名表明命名空间，防止函数重名。另外一种是直接在Import的时候一直到函数，此时亦可。python和包（文件夹/目录）、模块（python文件）和方法（类、函数、变量）相关的import和使用方式可以总结为上述几种情形。

2025-04-25 16:37:53 299

原创深度学习工具链

做好一个炼丹师

2025-04-03 15:49:20 204

原创优雅：“鉴赏”代码

这个和一些收藏类节目中，鉴赏人员通过一副画的实体与印章的位置是否符合美学，就可以论断这副画的真、假一样。“大家”的画必然符合，而不“符合”则必然是赝品。

2025-04-02 13:17:38 217

原创《pipeline实践》子专栏的序

用《软件工程实践者的研究方法》这本书里面的一段话，来为《pipeline实践》子专栏定下一个基调。

2024-10-08 15:12:43 221

统一过程及管理软件drawio文件

2024-10-10

git-workflow.drawio

对应文章通过Github Actions实现代码的持续集成（Continuous Integration/CI）(2)中的流程图

2024-10-07

LCD1062液晶完整中文资料

为准备电子设计比赛收集的LCD1062资料，拿出来分享

2013-07-22

德州仪器高性能单片机和模拟器件在高校中的应用和选型

参加全国电子设计大赛必备培训资料，TI内部人员编的，针对单片机、精密运放、高速运放如何选型有详细介绍，并有TI内部放大器、仿真器、滤波器设计软件的详细介绍，并教会你如何免费申请样片。可以说如果你把这本书研究透了，参加全国电子设计大赛拿一个省的奖是绝对没问题的，我当年就是遗憾比较晚看到这本书才遗憾的只获得了全国二等奖，现在分享出来希望更多的人可以看到，在比赛中取得好成绩

2013-08-01

pipeline: 项目申请

2024-07-20

快捷：通过胶水语言实现工作中测试流程并行、加速-加速测试outline.drawio

对应快捷：通过胶水语言实现工作中测试流程并行、加速博文中“加速测试outline.png”的drawio文件。

2024-07-14

快捷：通过胶水语言实现工作中测试流程并行、加速-原始测试outline.drawio

对应快捷：通过胶水语言实现工作中测试流程并行、加速博文中“原始测试outline.png”的drawio文件。

2024-07-14

东华大学电子设计竞赛题目及详细解析

东华大学校级比赛题目及解析万用表设计函数信号发生器设计字符显示基于MSP430 可以拿来练手

2013-07-12

空调遥控器，含有PTOTUES仿真图，KELL 源代码工程文件，和单片机课程设计报告

首先强调绝对原创，利用PTOTUES和KELL仿真空调遥控器，调试成功！单片机1模拟遥控器按键可实现空调状态的切换（利用LED显示）并可以设定空调延时开关机的时间和空调温度用LCD1602显示，按下发送键后遥控器上设置的信息利用串口线发送给单片机2模拟空调当延时时间到后，空调按设定状态工作。内涵PROTUES仿真软件图，KELL工程文件和源代码，和设计报告一份。可以使用，请勿转载，支持原创。

2014-07-04

C++primer第五版课后习题源代码

C++primer第五版课后习题源代码，分享给大家

2016-04-15

OPENCV人眼检测

主要涉及到的内容有1、基于图片的人脸、人眼检测；2、利用OPENCV实现本地视频与图片帧之间的相互转换；3、基于本地视频的人脸、人眼检测；4、操作笔记本摄像头，实现人脸、人眼检测。以及haar检测器。全为源码，可以运行。运行环境为VS2013+opencv2.4.8.3/有任何问题，都可以到http://write.blog.csdn.net/mdeditor#!postId=50741748，下提问，涉及到本代码的问题都会极力回答。

2016-02-26

参加竞赛时整理的MSP430详细资料，

全国电子设计竞赛整理资料 MSP G系列开发板详细资料

2013-07-11

UNIX网络编程配套源代码

unix网络编程技术源代码，若希望了解如何使用其中的代码，http://write.blog.csdn.net/postlist会对本书中的第一个例子的程序如何运行进行详细讲述

2016-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人