自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 深度学习5——循环神经网络

循环神经网络(RNN)是一类专门处理序列数据的神经网络,具有记忆能力,能够利用历史信息影响当前输出。其核心结构包括隐藏状态的循环连接,通过参数共享机制处理变长序列。RNN与单向流动的前馈神经网络形成鲜明对比,在语音识别、机器翻译等任务中表现优异。为了解决长程依赖问题,LSTM和GRU引入门控机制,分别通过记忆细胞和三门控(遗忘门、输入门、输出门)或双门控(更新门、重置门)选择性保留信息。此外,双向RNN(Bi-RNN)结合前后文信息,而深层RNN通过多层堆叠增强特征提取能力。训练方法上,RNN采用随时间反向

2025-06-12 18:07:03 262

原创 深度学习4——深度神经网络训练

模型泛化能力指模型对未知数据的预测能力,即从训练数据中学习到的模式能够推广到新样本。

2025-04-20 14:23:41 926 1

原创 计算机视觉7——齐次坐标与相机内外参

消逝点是三维空间中一组平行直线在透视投影下的汇聚点。数学上,设三维空间中平行直线的方向向量为ddxdydzddx​dy​dz​,则其对应的消逝点是该方向向量在投影平面上的"无穷远点"的投影。在欧几里得几何中,平移、旋转、缩放等变换可通过矩阵乘法表示,但平移变换对向量的作用是加法(p′ptp′pt),无法用单一矩阵乘法实现。齐次坐标系通过在n维空间中引入第n+1维坐标,将平移转换为矩阵乘法,并统一处理无穷远点(如透视投影中的消逝点)。n维点的齐次坐标。

2025-04-20 13:21:38 492 1

原创 计算机视觉6——相机基础

光线进入相机,经镜头、光圈等元件后到达图像传感器。传感器将光学影像转换为电子信号,再经过模数转换器、后处理单元等进一步处理,最终生成并保存图像。景深(Depth-of-Field, DoF)指相机聚焦平面前后相对清晰的成像范围,描述空间中能清楚成像的距离范围。真实成像过程中,3D场景到2D图像的投影关系与理想薄透镜相机模型中的投影关系的偏差称为像差。像差表现为图像的形变与失真,影响图像质量。

2025-04-13 18:02:30 1514

原创 计算机组成原理5——计算方法

商溢出检查:首先判断∣X∣∣Y∣|X|<|Y|∣X∣∣Y∣,若∣X∣≥∣Y∣|X|\geq|Y|∣X∣≥∣Y∣,则可能出现商溢出,需提前检测避免错误。商的符号确定:商的符号由被除数与除数的符号通过异或运算(半加和)得到,即Z0X0⊕Y0Z0​X0​⊕Y0​。被除数位数限制:被除数的位数mmm可以是除数位数nnn的两倍,满足m≤2nm\leq 2nm≤2n,这是除法运算中对数据位数的常见设定。

2025-04-13 11:42:30 865

原创 计算机视觉5——运动估计和光流估计

给定连续两帧图像IxytI(x, y, t)Ixyt(t时刻)和Ixyt1Ixyt1(t+1时刻),光流估计的核心目标是计算每个像素点xy(x, y)xy的位移矢量uv(u, v)uvIxytIxuyvt1IxytIxuyvt1该问题本质是通过图像亮度变化推断像素运动,是一个典型的逆问题,需依赖先验假设求解。

2025-04-06 16:36:33 767

原创 计算机视觉4——特征点及其描述子

图像中具有独特局部性质的点。

2025-04-06 15:19:51 1111

原创 计算机组成原理4——输入输出系统2

计算机中除主机外的其余部分,称为外部设备( I/O 设备、 外设)光盘存储器采用光存储技术,利用激光进行数据的写入和读出操作。一般是指显示器的深度小于显示屏幕对角线1/4长度的显示器件。

2025-04-06 11:13:26 941

原创 深度学习3——神经网络与反向传播

1943年,麦卡洛克和皮兹提出MCP模型,开启了人工神经网络的大门。该模型模拟人的神经元反应过程,对输入信号进行线性加权、求和后,再通过非线性激活(阈值法)输出。yfi1∑n​wi​xi​b其中,xi​是输入信号,wi​是对应的权重,b是偏置,f是激活函数。假设一个简单的单层感知机,有两个输入x1​2x2​3,权重w1​0.5w2​0.3,偏置b1,激活函数采用单位阶跃函数(当输入大于0时输出为1,否则为0)。zw1。

2025-03-26 11:35:43 1098

原创 计算机视觉3——模板匹配与拟合

图像金字塔是一种多尺度图像表示结构,通过对原始图像进行低通滤波和降采样,生成不同分辨率的图像层,类似金字塔形状。拟合是用参数模型表示特征,通过调整模型参数使模型逼近实际数据,以分析和描述数据。

2025-03-26 11:21:59 710

原创 计算机组成原理4——输入输出系统1

是通道自身的指令,用于执行 I/O 操作。这些指令存储在主存储器中,由通道来执行,以完成数据的输入输出功能。I/O 接口是两个系统或部件之间的交接部分。从硬件角度,它是连接主机与外部设备硬件的电路;从软件角度,它是两个软件之间的逻辑边界,能够协调不同软件模块对设备的操作。计算机在执行程序的过程中,当出现异常情况或特殊请求时,计算机停止现行程序的运行,转向对这些异常情况或特殊请求的处理,处理结束后再返回到现行程序的间断处 ,继续执行原程序,这就是中断引起中断的各种因素。

2025-03-25 17:02:04 1063

原创 大模型微调

矩阵中线性独立行或者列的最大数目把一个秩比较大的矩阵变成一个秩比较小的矩阵。对所有的模型参数都进行调整。

2025-03-15 21:51:57 854

原创 计算机视觉2——图像滤波和边缘检测

图像滤波器在图像处理领域用途广泛,主要用于图像增强,像模糊、锐化、去噪等操作,还能提取和重构纹理。它通过对输入图像进行特定处理,输出不同效果的图像,例如将原始图像转换为平滑或锐化后的图像。在实际场景中,数字摄影后期处理可利用其去除照片噪点,让画面更清晰;医学图像处理里,能增强细胞图像纹理,辅助医生诊断疾病。边缘指图像中像素值发生较剧烈变化的区域。在人物图像中,人物轮廓、衣服褶皱等部位存在边缘;在自然场景图像中,物体的边界、光影变化处也会形成边缘。

2025-03-14 18:10:22 762

原创 计算机组成原理3——存储器2

当CPU要访问某一数据或指令时,如果所需的主存块已经被调入缓存(Cache)中,并且主存块与缓存块之间建立了对应的映射关系(这种对应关系通过标记来标识),此时就发生了Cache命中存在两种情况会导致未命中。一是主存块还没有被调入缓存中,即CPU要访问的数据所在的主存块当前不在Cache中;二是虽然主存块可能已经在Cache中,但由于某些原因(如映射方式的限制、缓存替换等),主存块与缓存块之间尚未建立有效的对应关系。Cache命中率指的是CPU想要访问的信息在Cache中的比率。

2025-03-13 12:25:54 1071

原创 计算机组成原理3——存储器1

名称举例特性半导体存储器TTL、MOS易失。体积小、功耗低、存取时间短、易失性磁表面存储器磁盘、磁带、磁鼓非易失磁芯存储器硬磁材料的环状元件光盘存储器激光、磁光读取操作会改变存储电容的原有状态,因此在读取后需要对数据进行恢复或重写,以保证数据的完整性。

2025-03-13 12:23:12 797

原创 深度学习2——线性回归

此时,正则化提供了一种简单有效的替代方法,通过合理设置正则化参数,可以在有限样本的情况下,使模型在训练集和测试集上都表现出较好的性能。可知,在机器学习里,目标分布 (p(x)) 通常是固定的(即训练数据的分布是确定的),此时(\sum_{i}p(x_{i})\log p(x_{i})) 是一个常数。如果学习率过小,模型的训练速度会非常缓慢,需要更多的迭代次数才能达到较好的效果。在模型学习过程中,通过最小化交叉熵损失来优化模型参数,使模型的预测分布更接近真实分布,进而提高模型的分类性能。

2025-03-09 21:12:38 973

原创 深度学习1——基本概念

深度学习课程笔记

2025-03-09 20:58:39 324

原创 计算机视觉1——图像直方图和平面几何变换

前向扭曲映射:为源图像中的每一个像素计算其在目标图像中的位置及对应的像素值,得到新图像,但可能导致新图像部分像素没有值。反向扭曲映射:为目标图像中的每一个像素在源图像中找到其相应的位置及对应的像素值。多数情况下使用反向扭曲映射,因为前向扭曲映射会导致新的图像中有部分像素没有值。在图像分析中,均值和中值都是用于描述图像亮度等特征的统计量,但它们有明显区别,且中值比均值更鲁棒。

2025-03-09 20:53:02 618

原创 多模态论文精读2——MiniGPT

与传统的视觉语言模型相比,MiniGPT-4展示了许多先进的功能。作者认为GPT-4的多模态能力源于其使用了更先进的LLM,因此通过将视觉特征与先进的LLM(如Vicuna)对齐,可以实现类似的多模态能力。MiniGPT-4通过将视觉编码器与先进的LLM(Vicuna)对齐,探索视觉特征与语言模型的结合是否能够实现类似GPT-4的多模态能力。近年来,大型语言模型(LLMs)在语言理解和生成任务上取得了显著进展,尤其是GPT-4展示了强大的多模态能力,如从手写文本生成网站、识别图像中的幽默元素等。

2025-03-05 14:16:08 912

原创 多模态论文精读1——LLaVA

人类通过多种感官(如视觉和语言)与世界互动,每种感官在表示和传达某些概念时具有独特的优势。人工智能的核心目标之一是开发一个能够有效遵循多模态视觉和语言指令的通用助手,以完成各种现实世界任务。现有的多模态模型通常针对特定任务进行训练,缺乏通用性,且多模态指令跟随数据的缺乏限制了模型的泛化能力。

2025-03-04 13:25:09 1045

原创 计算机组成原理1——概论

系统CPU指的是CPU在操作系统内核态或监控态运行时的状态,具有更高的特权级别,可以执行特权指令,访问受保护的系统资源,如操作系统内核、设备驱动程序等。用户CPU指的是CPU在用户态运行时的状态,具有较低的特权级别,不能直接访问系统资源,必须通过系统调用接口来访问受保护的资源。在实际运行时,CPU会根据指令的特权级别来切换系统CPU和用户CPU这两种状态,以实现对系统资源的保护和管理。系统CPU和用户CPU并不是两种不同的CPU类型,而是描述CPU在不同的运行模式下的状态。用来存放当前要执行的指令。

2025-02-28 11:06:42 736

原创 计算机组成原理2——系统总线

计算机组成原理系列。这篇写一下总线部分的学习笔记。

2025-02-27 22:57:37 1078 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除