- 博客(195)
- 收藏
- 关注
原创 关于模型学习策略
Warm-up:显著减少训练初期发散与抖动Cosine:平滑衰减,后期更容易稳定收敛对 AdamW / Transformer / 大 batch 特别友好参数少、调参成本低,容易作为 baseline。
2025-12-12 17:33:14
685
原创 euler角与旋转变换矩阵
选定一个旋转轴序列,比如Z→Y→XZ→Y→X,或者Z→X→ZZ→X→Z等;按照这个固定顺序,依次绕这些轴旋转三个角度;合成后的总旋转就是一个旋转矩阵RRR;这三个角度就是欧拉角。Proper Euler 角:三个旋转中,头尾绕的是“同一个轴”(比如Z!−!X!−!ZZ!X!ZZ!−!X!−!ZTait–Bryan 角:三个轴互不相同(比如Z!−!Y!−!XZ!Y!XZ!−!Y!−!X。
2025-11-26 09:37:15
1006
原创 关于平行等位
在双目/立体匹配里,“平行等位”通常不是一个单独的“约束公式”,而是一种理想或被校正后的双目几何状态左右两幅图像经过立体校正(极线校正 / stereo rectification)后,极线变成水平且彼此平行;同一空间点在左右图上的对应像素落在同一行(yyy坐标相等),只剩下水平方向的位移差(视差)要找。OpenCV 的标定与校正文档明确说:立体校正后两图的极线会变为水平线,并具有相同的yyy坐标。中文资料里一般就把这种“校正为平行、对应点同一行”的状态叫平行等位或平行等位校正。CSDN。
2025-11-21 10:12:48
643
原创 关于图像处理中的亚像素
亚像素(Sub-pixel) 并不是一种新的像素类型,而是指:在计算和估计时,允许坐标、位置、位移等量取非整数值(例如12.312.312.3像素、0.250.250.25像素),通过数学方法估计网格之间的“连续变化”。比如一个角点的粗定位结果是10050(100,50)10050100.37;49.82)100.3749.82这就是“亚像素级定位”。亚像素本身不是硬件决定的,而是软件的算法估计出来的。
2025-11-18 11:06:22
1168
原创 关于特征提取
一句话:特征是把“像素的排列”变成“可计算、可分辨、可泛化的信息坐标”。特征 = 可计算的语义坐标。变形不改数值,但会改变谁与谁做运算的邻接关系——这决定语义如何被解释。只要维度语义清晰后续算子与任务对称性匹配,就能看清、表得稳、用得好。**附:公式yhwc∑i1k∑j1k∑c′xhi−1wj−1c′Wijc′cbcyhwci1∑kj1∑kc′∑xhi−1wj−1c。
2025-11-06 10:58:12
1053
原创 01 初试模型的部署
一句话:把“训练好的模型”变成“可被真实业务低延迟高可用地调用的系统”让你的代码走出舒适区,走出学术的象牙塔,到车间去,到户外去,到生产的一线去!
2025-11-05 15:52:56
642
原创 关于最小二乘法
摘要: 最小二乘法通过最小化残差平方和求解过定方程组的最优解,适用于带噪观测数据。其核心思想包括:几何上将观测向量正交投影到系数矩阵的列空间;代数上通过正规方程、QR分解或SVD求解;统计上在高斯噪声假设下等价于最大似然估计。扩展方法涵盖加权最小二乘(处理异方差)、岭回归(正则化)、非线性最小二乘(高斯-牛顿/Levenberg-Marquardt算法)及鲁棒回归(抗离群点)。实际应用中需注意数值稳定性(避免直接求逆)、特征缩放和残差分析。该方法广泛应用于直线/多项式拟合、相机标定和视觉几何等问题,是数据拟
2025-10-20 09:48:20
758
原创 关于conda forge长时间solving的问题以及如何解决
长时间 “solving environment” 本质是(SAT 搜索)在一个非常巨大的解空间里反复回溯。conda-forge 体量大、包有很多“变体”(不同 Python/ABI/BLAS/CUDA 版本等),再叠加“混用渠道”“规格不够具体”“大包(如 PyTorch/CUDA)”就容易让搜索爆炸。下面给你一套。
2025-09-19 16:35:52
637
原创 关于点积相似度和余弦相似度
假设我们有两个向量a⃗\vec{a}a和b⃗\vec{b}b,它们在nnna⃗a1a2anaa1a2anb⃗b1b2bnbb1b2bn∥a⃗∥∑i1nai2∥a∥i1∑nai2∥b⃗∥∑i1nbi2∥b∥i1∑nbi2向量间的夹角为θ\thetaθ,其中0≤θ≤180∘0≤θ≤。
2025-09-11 13:30:30
1494
原创 关于小波变换
今天煮啵来聊聊小波变换(Wavelet Transform)。如果你是计算机视觉(Computer Vision,简称CV)领域的从业者或爱好者,你可能听说过这个工具在图像处理中的作用。
2025-09-10 14:41:26
1148
原创 关于对鱼眼相机图片进行畸变校正的两种思路
鱼眼畸变主要表现为径向畸变(Radial Distortion),图像中心正常,边缘向外拉伸。畸变模型通常基于入射角θ\thetaθ(光线与光学轴夹角)和图像半径rrr的关系。等距投影(Equidistant Projection)rdfθrdfθ,其中rdr_drd为畸变图像半径,fff为焦距,θ\thetaθ为入射角。等立体角投影(Equisolid Angle Projection)rd2fsinθ2rd2fsinθ/2。
2025-09-08 17:04:57
1376
原创 关于Cassini投影
卡西尼投影是一种地图投影方法,用来把地球(或其他球体)的表面“投影”到平面上。想象你有一张纸,想把地球表面画上去,但地球是圆的,纸是平的,直接摊开会变形。卡西尼投影就像一套“裁剪规则”,告诉你怎么把地球表面的点有条理地“贴”到纸上。它属于柱面投影(Cylindrical Projection),就像把地球裹在一个圆柱形纸筒上,再展开成平面。中央经线(参考经线)上的形状和距离保持不变,特别适合绘制南北向拉长的区域,比如某些国家的局部地图。
2025-09-08 14:40:09
748
原创 深度相机详解
深度相机(Depth Camera),也称为深度感知相机或3D相机,是一种能够捕获场景中物体深度信息的成像设备。它不仅能记录二维图像(如RGB图像),还能够测量相机与场景中每个点之间的距离,从而生成三维深度图(Depth Map)。深度图通常以像素为单位表示距离值,形成一个类似于高度场的3D表示。深度相机的工作基础是各种光学和计算技术,用于实时或近实时地获取3D数据。常见的深度相机包括RGB-D相机(如Microsoft Kinect),它结合了RGB彩色传感器和深度传感器,提供彩色图像与深度信息的融合。
2025-09-05 10:24:39
882
原创 关于ReLU和GeLU的原理区别以及选择
以下是关于ReLU(Rectified Linear Unit)和GELU(Gaussian Error Linear Unit)激活函数的超级无敌具体且详细的讲解。它结合了概率思想,模拟了高斯分布的累积分布函数(CDF),在Transformer模型(如BERT)中广泛使用。在神经网络中,激活函数的作用是为模型引入非线性,使得神经网络能够解决复杂的、非线性的问题。ReLU的函数图像是一条折线:负半轴输出恒为0,正半轴是一条斜率为1的直线。是sigmoid函数,1.702是经验系数。
2025-09-04 17:18:09
1907
原创 关于多卡训练和单卡推理
模型训练时使用多GPU(多卡)可以加速计算,因为训练需要处理海量数据,通过数据并行或模型并行可以显著提高效率。而推理时一般不推荐多卡,因为推理计算量小、批量处理少,多卡通信开销反而会增加延迟。此外,单GPU经过优化(如量化、剪枝)已能满足实时性需求,多卡会带来资源浪费和成本上升。只有在超大模型或高吞吐量场景下,推理才可能需要多卡支持。
2025-09-03 13:54:32
743
原创 V4L2 常见 Pixel Format 分类表讲解
V4L2像素格式分类摘要 V4L2(Video4Linux 2)是Linux系统中处理视频设备的核心框架,支持多种像素格式(Pixel Format)用于图像数据的存储和传输。本文分类介绍了常见的像素格式: RGB格式:直接存储红绿蓝三色值,包括8位RGB332、16位RGB565、24位BGR24等,适合图形处理但占用空间大。 YUV格式:包括亮度(Y)和色度(UV)分量,通过色度采样节省空间: Packed YUV(如YUYV、UYVY):数据紧密排列 Planar YUV(如YV12、YU12):分量
2025-09-02 10:13:09
725
原创 原始像素格式、帧内压缩与视频编码标准详解
文章摘要:视频格式分为原始像素格式(如YUYV)、帧内压缩(如MJPG)和视频编码标准(如H.264)。原始格式无压缩,数据量大但延迟低;MJPG采用JPEG单帧压缩,带宽需求中等;H.264通过帧间预测实现高压缩率,适合流媒体。选择取决于场景需求:工业视觉用原始格式保证质量,USB摄像头用MJPG平衡带宽和延迟,流媒体则用H.264优化存储。实际应用中,设置相机为MJPG编码可解决YUYV格式导致的帧率问题。不同格式构成层级关系,理解其特点有助于合理选用。
2025-09-02 10:11:15
1084
原创 深度图是如何恢复点云的?
本文详细讲解了从深度图恢复点云的原理。深度图是一种灰度图像,每个像素代表相机到场景中对应点的距离,而点云则是三维空间中点的集合。通过反投影技术,利用相机内参矩阵将2D像素坐标和深度值转换为3D空间坐标。文章深入浅出地介绍了针孔相机模型、内参矩阵推导、数学转换公式及实现步骤,并讨论了注意事项。整个过程相当于将2D的"距离照片"转换为3D的"点粒子云",这是3D重建、SLAM等技术的基础。
2025-09-01 11:33:22
1222
原创 关于cuda版本,python版本,cudatoolkit以及cudnn
本文梳理了深度学习工具链中的关键组件及其关系,包括NVIDIA驱动、CUDA Runtime、cuDNN等。文章通过三层架构图展示它们之间的依赖关系,并详细说明各组件的作用、来源及最佳实践。重点推荐在conda环境中独立配置cudatoolkit和cuDNN以避免版本冲突,同时对比了TensorFlow和PyTorch在框架层的差异。最后提供了TensorFlow版本与CUDA/cuDNN的对应关系表,帮助开发者正确配置环境。
2025-08-27 10:56:00
1419
原创 关于两视图相机几何关系
两视图相机几何关系研究如何通过两张不同视角拍摄的同一场景图像,计算相机间的相对位置和方向。其核心是对极几何,利用基础矩阵(F)或本质矩阵(E)描述对应点间的约束关系。通过8点算法等可估计相机位姿(R,t),实现3D重建、视觉定位等应用。该技术是计算机视觉中立体匹配、SLAM等任务的基础,能有效解决从2D图像恢复3D世界信息的问题。
2025-08-27 10:06:13
520
原创 关于立体校正和基线对齐
立体校正和基线对齐是双目视觉系统的关键技术。立体校正是通过数学变换使左右摄像头图像的行对齐,确保对应点位于同一水平线上,简化视差计算。基线对齐则保证两摄像头光轴平行且基线水平,消除垂直视差。实现步骤包括摄像头校准、极线几何计算和图像变换,最终通过视差计算深度。OpenCV提供了相关函数实现这一过程,校正后的图像可大幅提升匹配效率和精度。通俗来说,就是将歪斜的双眼视角调整为水平对齐的理想状态。
2025-08-27 09:40:14
905
原创 为什么神经网络在长时间训练过程中会存在稠密特征图退化的问题
本文深入探讨了深度神经网络在长时间训练过程中出现的稠密特征图退化问题。文章首先定义了特征图和稠密特征图的概念,指出稠密特征图在网络深层中高度集成的特性。随后分析了神经网络的一般退化问题及其数学机制,包括梯度消失/爆炸、内部协变量偏移等问题。重点讨论了稠密特征图在长时间训练中的特定退化现象,表现为特征表示质量下降、局部特征丢失等问题,并给出了数学公式解释其退化机制。最后提出了包括Gram锚定在内的多种解决方案,通过强制学生模型匹配早期良好教师的Gram矩阵来保持特征一致性。文章为理解和解决深度神经网络长期训练
2025-08-17 15:37:41
764
原创 立体匹配中的稠密匹配和稀疏匹配
立体匹配是计算机视觉中的关键技术,通过不同视角的图像恢复三维场景。它分为稠密匹配和稀疏匹配两种。稠密匹配为每个像素计算视差,生成完整视差图,适用于三维重建等精细应用,但计算量大。稀疏匹配仅处理特征点(如角点、边缘),速度快但信息不完整,适合实时应用如SLAM。典型算法包括SGM(稠密)和ORB(稀疏)。深度学习进一步提升了匹配精度,但依赖大量数据。两种方法各有优劣,需根据应用场景选择。
2025-08-16 23:52:34
1270
原创 00初窥网络模型量化-梦开始的地方
摘要: 本文介绍了网络模型量化技术,旨在通过降低数值精度(如FP32→INT8)优化深度学习模型在边缘设备的部署。量化可减少存储、加速推理并降低功耗,适用于移动、嵌入式及边缘计算场景。核心方法包括后量化(PTQ)和量化感知训练(QAT),前者直接量化预训练模型,后者通过模拟量化误差提升精度。文章还探讨了量化原理、技术细节(如对称/非对称量化)及实现步骤,并提供了PyTorch代码示例。量化是模型工业落地的关键,能实现"低资源高产出"的部署目标。
2025-07-29 15:53:06
1169
原创 为什么在模型训练的过程中有时候引入教师模型用于蒸馏?
知识蒸馏是一种通过大模型(教师模型)指导小模型(学生模型)训练的模型压缩技术。教师模型提供预测概率(soft label),学生模型结合真实标签和教师输出进行训练,利用KL散度损失和交叉熵损失优化性能。相比直接训练,蒸馏能传递更丰富的知识结构(如类间关系),使小模型获得接近大模型的效果,同时保持轻量化优势,适用于边缘设备部署等场景。核心流程是教师模型传授知识,学生模型吸收知识,最终实现高性能轻量化目标。
2025-05-31 20:48:01
576
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1