文弱_书生-CSDN博客

原创关于模型学习策略

Warm-up：显著减少训练初期发散与抖动Cosine：平滑衰减，后期更容易稳定收敛对 AdamW / Transformer / 大 batch 特别友好参数少、调参成本低，容易作为 baseline。

2025-12-12 17:33:14 685

原创 euler角与旋转变换矩阵

选定一个旋转轴序列，比如Z→Y→XZ→Y→X，或者Z→X→ZZ→X→Z等；按照这个固定顺序，依次绕这些轴旋转三个角度；合成后的总旋转就是一个旋转矩阵RRR；这三个角度就是欧拉角。Proper Euler 角：三个旋转中，头尾绕的是“同一个轴”（比如Z!−!X!−!ZZ!X!ZZ!−!X!−!ZTait–Bryan 角：三个轴互不相同（比如Z!−!Y!−!XZ!Y!XZ!−!Y!−!X。

2025-11-26 09:37:15 1006

在双目/立体匹配里，“平行等位”通常不是一个单独的“约束公式”，而是一种理想或被校正后的双目几何状态左右两幅图像经过立体校正（极线校正 / stereo rectification）后，极线变成水平且彼此平行；同一空间点在左右图上的对应像素落在同一行（yyy坐标相等），只剩下水平方向的位移差（视差）要找。OpenCV 的标定与校正文档明确说：立体校正后两图的极线会变为水平线，并具有相同的yyy坐标。中文资料里一般就把这种“校正为平行、对应点同一行”的状态叫平行等位或平行等位校正。CSDN。

2025-11-21 10:12:48 643

原创关于图像处理中的亚像素

亚像素(Sub-pixel) 并不是一种新的像素类型，而是指：在计算和估计时，允许坐标、位置、位移等量取非整数值（例如12.312.312.3像素、0.250.250.25像素），通过数学方法估计网格之间的“连续变化”。比如一个角点的粗定位结果是10050(100,50)10050100.37;49.82)100.3749.82这就是“亚像素级定位”。亚像素本身不是硬件决定的，而是软件的算法估计出来的。

2025-11-18 11:06:22 1168

原创关于特征提取

一句话：特征是把“像素的排列”变成“可计算、可分辨、可泛化的信息坐标”。特征 = 可计算的语义坐标。变形不改数值，但会改变谁与谁做运算的邻接关系——这决定语义如何被解释。只要维度语义清晰后续算子与任务对称性匹配，就能看清、表得稳、用得好。**附：公式yhwc∑i1k∑j1k∑c′xhi−1wj−1c′Wijc′cbcyhwci1∑kj1∑kc′∑xhi−1wj−1c。

2025-11-06 10:58:12 1053

原创 01 初试模型的部署

一句话：把“训练好的模型”变成“可被真实业务低延迟高可用地调用的系统”让你的代码走出舒适区,走出学术的象牙塔,到车间去,到户外去,到生产的一线去!

2025-11-05 15:52:56 642

原创万字长文细推张正友标定法

煮啵在本文中详细逐步推导zhang氏标定法,在此之前希望诸君能有一些线性代数的以及优化理论的知识储备

2025-10-22 14:14:47 385

原创关于最小二乘法

摘要：最小二乘法通过最小化残差平方和求解过定方程组的最优解，适用于带噪观测数据。其核心思想包括：几何上将观测向量正交投影到系数矩阵的列空间；代数上通过正规方程、QR分解或SVD求解；统计上在高斯噪声假设下等价于最大似然估计。扩展方法涵盖加权最小二乘（处理异方差）、岭回归（正则化）、非线性最小二乘（高斯-牛顿/Levenberg-Marquardt算法）及鲁棒回归（抗离群点）。实际应用中需注意数值稳定性（避免直接求逆）、特征缩放和残差分析。该方法广泛应用于直线/多项式拟合、相机标定和视觉几何等问题，是数据拟

2025-10-20 09:48:20 758

原创关于conda forge长时间solving的问题以及如何解决

长时间 “solving environment” 本质是（SAT 搜索）在一个非常巨大的解空间里反复回溯。conda-forge 体量大、包有很多“变体”（不同 Python/ABI/BLAS/CUDA 版本等），再叠加“混用渠道”“规格不够具体”“大包（如 PyTorch/CUDA）”就容易让搜索爆炸。下面给你一套。

2025-09-19 16:35:52 637

原创关于相机参数的变换与标定

目标：讲清、以及。

2025-09-19 11:42:40 1481

原创关于神经网络中回归的概念

神经网络回归通过多层变换、反向传播和优化学习连续映射。

2025-09-11 13:36:13 1185

原创关于点积相似度和余弦相似度

假设我们有两个向量a⃗\vec{a}a和b⃗\vec{b}b，它们在nnna⃗a1a2anaa1a2anb⃗b1b2bnbb1b2bn∥a⃗∥∑i1nai2∥a∥i1∑nai2∥b⃗∥∑i1nbi2∥b∥i1∑nbi2向量间的夹角为θ\thetaθ，其中0≤θ≤180∘0≤θ≤。

2025-09-11 13:30:30 1494

原创关于小波变换

今天煮啵来聊聊小波变换（Wavelet Transform）。如果你是计算机视觉（Computer Vision，简称CV）领域的从业者或爱好者，你可能听说过这个工具在图像处理中的作用。

2025-09-10 14:41:26 1148

原创关于对鱼眼相机图片进行畸变校正的两种思路

鱼眼畸变主要表现为径向畸变（Radial Distortion），图像中心正常，边缘向外拉伸。畸变模型通常基于入射角θ\thetaθ（光线与光学轴夹角）和图像半径rrr的关系。等距投影（Equidistant Projection）rdfθrdfθ，其中rdr_drd为畸变图像半径，fff为焦距，θ\thetaθ为入射角。等立体角投影（Equisolid Angle Projection）rd2fsin⁡θ2rd2fsinθ/2。

2025-09-08 17:04:57 1376

原创关于Cassini投影

卡西尼投影是一种地图投影方法，用来把地球（或其他球体）的表面“投影”到平面上。想象你有一张纸，想把地球表面画上去，但地球是圆的，纸是平的，直接摊开会变形。卡西尼投影就像一套“裁剪规则”，告诉你怎么把地球表面的点有条理地“贴”到纸上。它属于柱面投影（Cylindrical Projection），就像把地球裹在一个圆柱形纸筒上，再展开成平面。中央经线（参考经线）上的形状和距离保持不变，特别适合绘制南北向拉长的区域，比如某些国家的局部地图。

2025-09-08 14:40:09 748

原创深度相机详解

深度相机（Depth Camera），也称为深度感知相机或3D相机，是一种能够捕获场景中物体深度信息的成像设备。它不仅能记录二维图像（如RGB图像），还能够测量相机与场景中每个点之间的距离，从而生成三维深度图（Depth Map）。深度图通常以像素为单位表示距离值，形成一个类似于高度场的3D表示。深度相机的工作基础是各种光学和计算技术，用于实时或近实时地获取3D数据。常见的深度相机包括RGB-D相机（如Microsoft Kinect），它结合了RGB彩色传感器和深度传感器，提供彩色图像与深度信息的融合。

2025-09-05 10:24:39 882

原创关于ReLU和GeLU的原理区别以及选择

以下是关于ReLU（Rectified Linear Unit）和GELU（Gaussian Error Linear Unit）激活函数的超级无敌具体且详细的讲解。它结合了概率思想，模拟了高斯分布的累积分布函数（CDF），在Transformer模型（如BERT）中广泛使用。在神经网络中，激活函数的作用是为模型引入非线性，使得神经网络能够解决复杂的、非线性的问题。ReLU的函数图像是一条折线：负半轴输出恒为0，正半轴是一条斜率为1的直线。是sigmoid函数，1.702是经验系数。

2025-09-04 17:18:09 1907

原创关于多卡训练和单卡推理

模型训练时使用多GPU（多卡）可以加速计算，因为训练需要处理海量数据，通过数据并行或模型并行可以显著提高效率。而推理时一般不推荐多卡，因为推理计算量小、批量处理少，多卡通信开销反而会增加延迟。此外，单GPU经过优化（如量化、剪枝）已能满足实时性需求，多卡会带来资源浪费和成本上升。只有在超大模型或高吞吐量场景下，推理才可能需要多卡支持。

2025-09-03 13:54:32 743

原创 V4L2 常见 Pixel Format 分类表讲解

V4L2像素格式分类摘要 V4L2(Video4Linux 2)是Linux系统中处理视频设备的核心框架，支持多种像素格式(Pixel Format)用于图像数据的存储和传输。本文分类介绍了常见的像素格式： RGB格式：直接存储红绿蓝三色值，包括8位RGB332、16位RGB565、24位BGR24等，适合图形处理但占用空间大。 YUV格式：包括亮度(Y)和色度(UV)分量，通过色度采样节省空间： Packed YUV(如YUYV、UYVY)：数据紧密排列 Planar YUV(如YV12、YU12)：分量

2025-09-02 10:13:09 725

原创原始像素格式、帧内压缩与视频编码标准详解

文章摘要：视频格式分为原始像素格式（如YUYV）、帧内压缩（如MJPG）和视频编码标准（如H.264）。原始格式无压缩，数据量大但延迟低；MJPG采用JPEG单帧压缩，带宽需求中等；H.264通过帧间预测实现高压缩率，适合流媒体。选择取决于场景需求：工业视觉用原始格式保证质量，USB摄像头用MJPG平衡带宽和延迟，流媒体则用H.264优化存储。实际应用中，设置相机为MJPG编码可解决YUYV格式导致的帧率问题。不同格式构成层级关系，理解其特点有助于合理选用。

2025-09-02 10:11:15 1084

原创深度图是如何恢复点云的?

本文详细讲解了从深度图恢复点云的原理。深度图是一种灰度图像，每个像素代表相机到场景中对应点的距离，而点云则是三维空间中点的集合。通过反投影技术，利用相机内参矩阵将2D像素坐标和深度值转换为3D空间坐标。文章深入浅出地介绍了针孔相机模型、内参矩阵推导、数学转换公式及实现步骤，并讨论了注意事项。整个过程相当于将2D的"距离照片"转换为3D的"点粒子云"，这是3D重建、SLAM等技术的基础。

2025-09-01 11:33:22 1222

原创关于cuda版本,python版本,cudatoolkit以及cudnn

本文梳理了深度学习工具链中的关键组件及其关系，包括NVIDIA驱动、CUDA Runtime、cuDNN等。文章通过三层架构图展示它们之间的依赖关系，并详细说明各组件的作用、来源及最佳实践。重点推荐在conda环境中独立配置cudatoolkit和cuDNN以避免版本冲突，同时对比了TensorFlow和PyTorch在框架层的差异。最后提供了TensorFlow版本与CUDA/cuDNN的对应关系表，帮助开发者正确配置环境。

2025-08-27 10:56:00 1419

原创关于两视图相机几何关系

两视图相机几何关系研究如何通过两张不同视角拍摄的同一场景图像，计算相机间的相对位置和方向。其核心是对极几何，利用基础矩阵(F)或本质矩阵(E)描述对应点间的约束关系。通过8点算法等可估计相机位姿(R,t)，实现3D重建、视觉定位等应用。该技术是计算机视觉中立体匹配、SLAM等任务的基础，能有效解决从2D图像恢复3D世界信息的问题。

2025-08-27 10:06:13 520

原创关于立体校正和基线对齐

立体校正和基线对齐是双目视觉系统的关键技术。立体校正是通过数学变换使左右摄像头图像的行对齐，确保对应点位于同一水平线上，简化视差计算。基线对齐则保证两摄像头光轴平行且基线水平，消除垂直视差。实现步骤包括摄像头校准、极线几何计算和图像变换，最终通过视差计算深度。OpenCV提供了相关函数实现这一过程，校正后的图像可大幅提升匹配效率和精度。通俗来说，就是将歪斜的双眼视角调整为水平对齐的理想状态。

2025-08-27 09:40:14 905

原创为什么神经网络在长时间训练过程中会存在稠密特征图退化的问题

本文深入探讨了深度神经网络在长时间训练过程中出现的稠密特征图退化问题。文章首先定义了特征图和稠密特征图的概念，指出稠密特征图在网络深层中高度集成的特性。随后分析了神经网络的一般退化问题及其数学机制，包括梯度消失/爆炸、内部协变量偏移等问题。重点讨论了稠密特征图在长时间训练中的特定退化现象，表现为特征表示质量下降、局部特征丢失等问题，并给出了数学公式解释其退化机制。最后提出了包括Gram锚定在内的多种解决方案，通过强制学生模型匹配早期良好教师的Gram矩阵来保持特征一致性。文章为理解和解决深度神经网络长期训练

2025-08-17 15:37:41 764

空空如也

空空如也