- 博客(66)
- 收藏
- 关注
原创 一文看懂什么是MCP(大模型上下文)协议
是一种由Anthropic公司推出的开放协议,旨在实现大型语言模型(LLM)与外部数据源和工具的无缝集成。它类似于AI领域的“USB-C接口”,为AI模型与各种工具和数据源之间的连接提供了一种标准化的方式。
2025-04-19 20:58:28
265
原创 MindSpore开源创新实践
Stable Diffusion是一种基于潜在扩散的机器学习模型,能够将文本描述转化为高质量的图像。卷积核的参数就是本身的大小,例如3*3的卷积核,参数为9。训练中加参数:往callback(回调函数)里面塞。反向传播要考虑所有参与计算的导数,包括激活函数。超参数:人为自己设置的参数,训练前自己写的。参数数量200*100+100*100。最大池化:选最大是因为特征最明显的数据。全连接网络是前馈网络dence层。shuffle是因为要增加特征。relu激活函数优缺点。test集只要标准化。
2025-04-18 09:56:59
114
原创 基于点的三维激光雷达点云检测器
几何坐标和一个强度值,当这些点组合在一起时,就会形成一个点云,即空间中代表3D形状或对象的数据点集合,总之,点云是一种以点为基本单位的。上下文质心感知(Context-aware Centroid Perception)是指在感知任务中,考虑周围环境和上下文信息来。前景点,背景点:在计算机视觉和图像处理领域,前景点(Foreground Points)是指在图像或点云中。前景点与背景点相对应,背景点通常指代。,数据集中的每个点代表。
2025-04-18 09:56:15
134
原创 虚拟机教程
举例:在网址栏上输入 ip地址+端口号。HTTPS服务器的端口号:443。SSH服务器的端口号:22。Web服务器的端口号:80。FTP服务器的端口号:21。
2025-04-18 09:55:47
128
1
原创 RCNN论文解读笔记
RCNN名字的来源(region with CNN features具有 CNN 特征的区域)在确定候选区域之后再对区域进行分类,从而同时完成定位和分类两大任务。1.获取一个输入图像。
2025-04-18 09:55:29
719
1
原创 图像修复笔记(香港城市大学和微软亚研院团队2020 CVPR TPAMI)
(例如胶片颗粒film grain和褪色color fading),应通过利用进行修复;而(例如划痕scratches和灰尘dust spots),需要利用进行修复。合成图像和真实图像首先通过一个共享的变分自动编码器()映射到同一个隐空间。
2025-04-18 09:55:02
886
1
原创 轻量化高精度的视频语义分割
在深度学习中,相对于传统模型具有更小尺寸和更少参数数量的模型。这些模型的设计旨在在。这是一种通过去除模型中不必要的神经元和连接来减少参数数量的方法。剪枝方法可以基于网络权重、梯度或激活响应等信息进行选择,从而实现模型的精简。在模型量化中,的表示,如8位整数。这种减少精度的方法可以显著降低模型的存储需求。轻量级模型架构采用一些特定的层结构和设计原则,以减少模型的计算复杂性和参数数量,例如MobileNet、ShuffleNet等。
2025-04-18 09:54:34
615
1
原创 Transformer
MSA模块的核心思想是将输入序列分别投影到多个不同的表示子空间,然后在每个子空间中计算独立的自注意力,最后将所有子空间的输出进行合并。每个子空间都有一个称为“头(head)”的注意力机制,它通过独立的参数来计算注意力权重,从而在不同的信息角度上对序列进行建模。自注意力机制可以扩展为多头注意力(Multi-Head Attention),即将多个不同的Query、Key、Value投影到不同的表示子空间中,然后并行地计算多个注意力输出,最后通过线性变换将它们合并在一起。它是自注意力机制的扩展版本,通过。
2025-04-18 09:54:04
988
原创 三维点云基础知识
由于激光雷达是以自身为中心放射状的发射激光射线,这就导致距离激光雷达近的目标点的密度较大,而离激光雷达距离较远的目标点的密度较小,甚至有些目标只能获取几个点的信息,如下图所示,同一个物体,在距离较近的时候采样点数量多,在距离较远的时候采样点数量少。不同于 RGB 图片这种结构化数据,点云是三维空间中一系列点的集合,是一种不规则的数据,没有一种准确的方法可以确定点与点之间的关系或者点与点的先后顺序,这就使得无法使用常规的二维卷积神经网络提取特征。多边形网格的表现形式。的三维网格,是点云数据的规则化手段。
2025-04-18 09:53:42
523
1
原创 Pytorch的常规操作
1自动计算x的维度大小 后面的两个三代表一个3+3矩阵。的作用是自动计算该维度的大小,以确保总元素数量不变。的意思是 "任何可以使得总元素数量保持不变的值"。改变张量形状的操作 .view()是目标形状中的另一个维度的大小。改变张量x的维度大小。
2025-04-18 09:53:03
391
1
原创 pointnet pointnet++论文笔记
平均交并比。交并比(IoU,Intersection over Union)是一个衡量两个集合之间重叠程度的指标它的计算方式是将预测区域与真实区域的交集大小除以它们的并集大小。
2025-04-18 09:52:43
909
1
原创 跨模态蒸馏
蒸馏损失是学生模型的损失函数,它被设计为使学生模型的预测尽量接近教师模型的预测。在这种情况下,损失函数Lkd包括了KL散度项,用于度量学生模型(fθs)和多模态教师模型(fθt)之间的知识差异,其中教师模型同时考虑了两个模态的信息。认为在多模态或多视角数据中,每个视角或模态单独包含的信息足以支持后续任务的需求,而不需要考虑其他视角或模态的信息。这个假设的基本思想是,例如:在驾驶汽车时,司机可能更关注视觉信息(如道路和交通标志),而对听觉信息(如收音机的声音)或触觉信息(座椅的感觉)的注意力相对较低。
2025-04-18 09:51:41
812
原创 语义分割技术
一般而言,浅层特征注重边缘、纹理等空间细节,但缺乏高级语义;而深层特征具备精确的高级语义信息,但缺乏空间细节信息。由于传统的卷积运算一次仅能处理一个局部领域,这大概率会导致大尺寸对象分割的不完整性。,容易引起局部领域的信息丢失,同时,当扩张率选取不恰当时还会造成网格(棋盘)效应;后再用卷积进行更细致的特征融合,然后不断细化,使其整体结构更加对称。不同抽象层级的特征具有不同的独特语义表征。基于传统的图像分割算法目前较多的是作为。,从而提取到更具有判别力的特征。连接操作缓解梯度弥散的动机。
2025-04-17 15:13:42
327
原创 RMSIN代码复现过程实录(远程服务器完成)
定义:掩膜通常是一个与原始图像大小相同的二值或布尔图像,其中,选定的区域被标记为1(或True),而其余区域被标记为0(或False)。用途:当对图像应用一个操作(如滤波、边缘检测、区域提取、图像增强等)时,掩膜可以用来限制这个操作只在图像的特定区域内发生。在这个环境下安装必要的包,通常在requirements.txt文件里面。层内尺度交互模块和层间尺度交互模块来处理不同尺度内和跨尺度的细粒度信息。记得一定要cd 进入代码的文件夹目录!安装mmcv,试了很多次,这个命令可以成功安装。
2025-04-17 15:12:38
322
原创 UMAEA论文阅读
MMKG为一个五元组G={E, R, A, V, T},其中E、R、A和V分别表示实体集、关系集、属性集和图像集。T⊆E×R×E是关系三元组集。给定两个MMKG G1 = {E1, R1, A1, V1, T1} 和 G2 = {E2, R2, A2, V2, T2},MMEA旨在识别每个(e1i,e2i),其中 e1i ∈ E1,e2i ∈ E2,且 e1i 和 e2i 对应于。M = {g, r, a, v}表示为可用模态的集合。
2025-04-17 15:12:19
500
原创 RMSIN论文阅读
旨在根据实现遥感图像中目标对象的像素级定位:像素级定位指的是在图像中对目标对象的每个像素进行准确的定位和标记。这意味着不仅要识别图像中的目标,还要精确地确定目标的边界,并为每个像素分配相应的类别标签。指的是神经网络中某一层神经元对输入数据的感知范围。在卷积神经网络(CNN)中,每一层的神经元只关注输入数据的一个局部区域,而这个局部区域的大小就是该神经元的感受野。不同的感受野指的是在神经网络的不同层中,神经元感知输入数据的范围大小不同。
2025-04-17 15:11:56
422
原创 ssh winscp以及一些常见的bash命令
这边是登录远程服务器的信息主机名就是ip地址端口号前面有个-p用户名就是自己取的名字,例如YY密码就是ssh远程连接的密码。
2025-04-17 15:11:37
280
1
原创 MATLAB项目实战(一)
(2)为了进一步减少吨千米数,打算舍弃两个临时料场,改建两个新的,日储量各为20t,问应建在何处,节省的吨千米数有多大?两料场分别向各工地运送多少水泥,可使总的吨千米数最小.。个建筑工地要开工,每个工地的位置(用平面坐标系。.假设从料场到工地之间均有直线道路相连.。由下表给出.目前有两个临时料场位于。)试制定每天的供应计划,即从。
2025-04-17 15:10:10
603
原创 Mamba
想把一些不相关的白色的词删去,但是因为每个token的ABC相同,很难有选择性,如果是transformer可以利用自注意力机制完成计算注意力分数,从而删除不相关的词语。输入是文本,我们要做的事是将文本中的单词copy到任意位置,这是简单的,因为对于同于一个token的ABC参数是一样的,因为我们可以对每个token采用相同参数处理。有个缺点:对于一个时间部,这里的ABC是一个固定的值 ,如果时间部不同,那么ABC也不同,那么就无法实现convolutional。
2025-04-17 15:09:57
438
原创 MAMBA start!!!
通过这种方法,HiPPO能够在每个时间步更新多项式的系数,从而动态地捕捉输入信号的变化,同时避免了维数爆炸的问题。是一组特殊的多项式,它们的系数选择使得任意两个不同阶的多项式之间的内积为零。在HiPPO模型中,通过将序列数据投影到正交多项式的基上,可以将数据压缩成一个系数向量,这个向量的每个元素对应于一个特定阶数的多项式系数。这样,原始的序列数据就被转换成了一个低维的表示形式,这个表示形式捕获了序列的关键特征,同时减少了存储和计算的需求。
2025-04-17 15:09:35
196
原创 DVGaze
要理解DV-Gaze中的- 这是一个专门设计的卷积块,旨在处理来自两个不同视图的信息(例如,在注视点估计任务中的左眼和右眼视图)。- DIC块的主要目标是在卷积过程中使这两个视图之间的信息进行交互,通过结合来自两个视图的信息来增强整体特征表示。- 在卷积过程中,两个视图的信息是相互交换的。这意味着DIC块不是单独处理每个视图的特征,而是处理并结合两个视图的特征。- 这种信息交换允许网络整合来自两个视图的互补信息,从而捕捉到更全面和准确的特征。- DIC块在多个特征尺度上执行这些操作。
2025-04-17 15:08:02
706
原创 Lightm-Unet代码注释
组归一化(Group Normalization,简称GN)是一种归一化技术,它在一组通道内进行归一化,而不是在整个通道维度或批次维度进行归一化。这样可以在小批量甚至单样本情况下保持稳定的训练效果。假设:假设你有一个输入张量,其形状为,而为 32。如果你使用作为归一化参数,那么组归一化会将这32个通道分成8组,每组包含4个通道,然后在每组内进行归一化操作。
2025-04-17 15:06:01
394
原创 数据结构第一轮复习--第五章树、二叉树(包含课程、作业代码)
其中,是一个结构体类型,可以包含多种不同类型的数据。在实际应用中,ElemType的定义可以根据具体需求进行扩展,包含多个字段,以存储更复杂的信息。
2025-03-27 15:51:41
287
原创 数据结构第一轮复习--第二章线性表(包含课程作业代码)
/单链表的代码定义typedef struct LNode{ //定义单链表的节点类型//每个节点存放一个数据元素//指针指向下一个节点位置。
2025-03-14 20:47:37
422
原创 数字带阻滤波器,满足如下技术指标要求:对模拟信号在1.9KHz、4.7kHz处的衰减大于40 dB,在1.2 kHz、9.2 kHz 处的衰减小于 1dB。请分别设计R、FIR(要求具有线性相位)类型
【代码】数字带阻滤波器,满足如下技术指标要求:对模拟信号在1.9KHz、4.7kHz处的衰减大于40 dB,在1.2 kHz、9.2 kHz 处的衰减小于 1dB。请分别设计R、FIR(要求具有线性相位)类型。
2024-12-23 00:41:19
230
原创 关于卷积层中参数对输出特征图大小的影响,公式理解
当不同层输出的特征图需要相加时,它们的大小(即宽度和高度)必须相同。这是因为特征图相加是逐像素进行的,只有当两个特征图的对应像素位置对齐时,才能进行相加操作。通道数也要相同
2024-12-08 10:45:37
204
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人