- 博客(9)
- 收藏
- 关注
原创 PICIE:在聚类中使用不变性和等方差的无监督语义分割
在联合聚类和学习的框架中加入这个限制有点棘手,因为标签是根据特征映射的聚类产生的伪标签,因此对于特征输入的转换很敏感。空间变化等方差意思为,对于放大的图像的同一物体的分割应该与原始图像的同一物体的分割应该是相似的。然后的操作类似于上面光度变化的操作,损失函数一部分来自于,每个视图与自己产生的标签进行交叉熵损失,另一部分损失来自于,两种不同的视角(view)下不同变化的交叉配对标签而产生的交叉熵损失。因为假设是光度不变的,所以在(11)中使用一组的特征向量来匹配另一组向量的聚类的簇的质心和类标签。
2023-10-11 15:04:24
385
原创 RandLA-Net——大规模点云的高效语义分割
RandLA-Net是基于point-wise MLP的方法。特点:之前的方法只要运用于小规模的点云语义分割,此方法可以运用在大规模点云的语义分割上面。创新点主要是:1、采取了随机点取样,而不是更复杂的点选择方法(比如pointnet++使用的是最远距离取样fps),可以使计算复杂度和内存效率变得显著。2.引入了一种新的局部特征聚合模块,逐步增加每个三维点的接受域,从而有效地保留几何细节。最后实验证明:RandLA-Net可以一次处理100万个点,比现有的方法快200倍。
2023-08-04 12:09:03
1273
1
原创 Pointnet++ 网络结构以及代码实现
pointnet++是在pointnet的基础上发展而来的,而pointnet对于局部结构的识别能力有所缺陷,从pointnet的网络我们也可以看出,pointnet(如图一)是对整体的特征进行了maxpooling操作,忽略了局部特征,而pointnet++采用了一个叫深度的层次特征学习模式以提高局部结构的识别能力。
2023-07-20 17:26:37
1638
原创 PointNet 网络结构
最近在学习点云,首先便是开山之作pointnetUnordered点云是无序的,点的排序不影响物体的性质,如下图所示:2.该模型需要能够从附近的点捕获局部结构,以及局部结构之间的组合相互作用3.旋转不变性,即一个点云数据旋转后仍然表达的是同一个物体这个在原文中主要采用的是一个T-net来实现T-Net网络是可以去学习点云的旋转从而给予校正,给后面的网络使用。
2023-07-13 15:57:23
826
1
原创 Resnet 50 代码复现
输入的通道数为64,在第一个layer层第一个bottleneck中使用一个1x1卷积将通道数由64变为256,与第一个bottleneck的输出通道数匹配,以便于残差相加,1x1卷积的stride=1,特征图尺寸不变。然后第二个layer层的第一个bottleneck中需要下采样,使用1x1卷积,其中stride=2,将尺寸减半,并将通道数加倍,从而可以与bottleneck的最后一个卷积层的通道数匹配,进行残差相加。每个layer层bottleneck的个数分别为3,4,6,3。以下为具体代码的实现。
2023-07-11 14:42:59
617
原创 vgg16的复现
1.通过2次[3,3]的卷积层,输出为[224,224,64],在经过最大池化层(卷积核为2x2,stride为2)特征图长宽尺寸减半输出为[112,112,64]4.通过3次[3,3]的卷积层,输出为[28,28,512],在经过最大池化层(卷积核为2x2,stride为2)特征图长宽尺寸减半输出为[14,14,512]5.通过3次[3,3]的卷积层,输出为[14,14,512],在经过最大池化层(卷积核为2x2,stride为2)特征图长宽尺寸减半输出为[7,7,512]具体细节还需要仔细研究原论文。
2023-06-29 12:44:16
516
1
原创 复现 transformer
首先是一些掩码操作这行代码主要是在实现序列屏蔽的过程中构造一个形状为(batch_size, seq_len)大小的布尔型张量mask 其中,元素(i,j)的值为True表示对应输入序列中的第i个样本在位置j上存在有效元素,反之,该位置不存在有效元素。具体而言,valid_len 是一个长度为batch_size的一维张量,表示每个序列中有效元素的数量(seq_len可能大于有效长度)。
2023-05-31 17:18:52
1709
1
原创 利用Cifar10 数据集跑resnet网络
数据集采用的是kaagle⽐赛中的Cifar10,⽹址是比赛数据集分为训练集和测试集,其中训练集包含50000张、测试集包含300000张图像。两个数据集中的图像都是png格式,⾼度和宽度均为32像素并有三个颜⾊通道(RGB这些图⽚共涵盖10个类别:⻜机、汽⻋、⻦类、猫、⿅、狗、⻘蛙、⻢、船和卡⻋。
2023-05-24 15:37:22
1591
1
原创 Resnet 18 及34 的代码复现(基于李沐的动手学深度学习)
BasicBlock模块有两种模式,一种是输入X以后需要用1x1卷积层来进行下采样,从而升维,将通道数加倍,其中的步幅stride=2,一种是不需要1x1卷积层,直接将x与拟合的残差F(X)相加。其中conv_3,conv_4,conv_5的三个模块中每个模块中的第一个残差块的输入输出通道数分别从64——128,128——256,256——512,并需要进行1x1的卷积将输入x下采样,从而保证输出的x的通道数与两层3X3卷积后的通道数一致。上述的num_classes表示需要分类的类别数。
2023-05-16 14:12:38
2949
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅