早上睡觉下午睡觉晚上不睡觉-CSDN博客

原创 2024年10月论文阅读--基于强化学习的图像分类

第一篇：2022Reinforcement Learning in Image Classification: A Review（基于强化学习的图像分类综述）作者：目的：关于图像分类在强化学习方面的综述。内容：①通过分析以往的研究结果，说明使用基于rl的方法在图像分类过程中的效果②为RL技术在图像处理和分类中的应用提供未来的方向和开放问题具体：①关于RL的效率有两种指标：数据效率和计算效率。数据效率衡量的是在学习过程中从实际控制的系统中使用的数据量。相比之下，计算效率衡量了学习算法所需的计算量。

2024-10-23 23:49:45 2100 1

原创报错：RuntimeError: mat1 and mat2 shapes cannot be multiplied (20x10368 and 180000x128)

可能是导致维度不匹配的原因。为了确保输入到全连接层的维度正确，、需要计算经过卷积层和池化层后的特征图尺寸。：假设输入图像的尺寸是 H \W（高度和宽度），例如 H = 300,W = 300。找到错误代码，是由于模型处计算错误。这段代码中的全连接层。错误表示：矩阵的维度不匹配，导致无法完成矩阵相乘操作。

2024-10-21 10:42:37 1387

原创运行几轮后报错：torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 62.00 MiB.

能运行十几个epoch之后就报错内存不足。我甚至将batchsize调到了1，能减小的超参数我全调小了，但是依然报这个错。我一度怀疑是梯度的问题，由于梯度一直累计才这样。但是看代码根本没有什么问题。将with torch.no_grad():使用在调用模型前。来确保不保留梯度计算图!于是，在预测时，使用。

2024-10-16 23:35:19 466 3

原创 Error: The shape of the mask [4567] at index 0 does not match the shape of the indexed tensor [1, 45

报错的原因是，布尔掩码的形状应该是与similarity张量的形状兼容的，即(1, 4567)，而不是(4567,)。这意味着actions.squeeze()应该保持其形状为(1, 4567)，而不是被挤压成一维张量。分析：这段代码中，actions是一个形状为 (1, 4567) 的张量，它被squeeze()操作去掉了形状中的单个维度，结果是一个形状为 (4567,) 的张量。然后，bool()函数将其转换为一个布尔掩码，用于索引similarity张量。

2024-05-24 10:59:48 708

原创 Error: The size of tensor a (2048) must match the size of tensor b (1000) at nonsingleton dimension2

seq_norm是a，seqc_norm是b，于是查看ab两个的大小，发现a是torch.Size([1, 4567, 2048]) b是torch.Size([1000])b出了问题，找到b的出处，b是用resnet152提取的特征向量，维度为1000是因为直接保存了全连接层的结果（resnet的输出结果就是1000个类别）这个错误信息表明在执行张量运算时，两个张量在非单一维度（这里是维度2）上的尺寸不匹配。要想匹配维度，需要修改b的保存，使b保存全连接层的前一层，就可以解决。

2024-05-24 10:34:51 510

原创 RuntimeError: shape ‘[2097152, 1]‘ is invalid for input of size 1048576

于是查看模型的输入，model.shape是1024，然后再看数据的类型.shape后是（731，2048）。数据的维度是2048，而模型的输入数据是1024，导致的错误。接受输入形状为[2097152,1]，但是数据输入是1048567。可以发现两个数字是倍数关系。这里有两个方法，该数据维度或者模型输入维度。于是了解probs = model(seq)，是model函数或模型的输出。报错显示该错误与probs = model(seq) 相关。在一篇博客看到1048567=128*128*64。

2024-05-10 10:17:30 486

原创 AttributeError: module ‘weave‘ has no attribute ‘inline‘自己创建.pyx

错误AttributeError: module 'weave' has no attribute 'inline'表明weave没有inline功能。是因为wave已经不使用了。换成numba可以解决。

2024-05-09 15:57:47 191

原创 error: the following arguments are required: -d/--dataset, -s/--split, -m/--metric

于是，在pycharm下的终端运行 python main.py -d D:\\teacher_Pan\\xiazai\\new -s D:\\teacher_Pan\\xiazai\\new1 -m summe。报错：error: the following arguments are required: -d/--dataset, -s/--split, -m/--metric。其中main.py是要运行的py文件，-d后面是数据集地址，-s后面是保存路径，-m是代码中选择的评价指标。

2024-04-15 10:28:00 830

原创遇到local variable ‘epoch_msg‘ referenced before assignment错误

这个问题是赋值前引用的局部变量“epoch_msg”，然后我epoch_msg需要的全局变量，使用加了全局变量定义。于是在开始加上了epoch_msg = False来定义全局变量，表示显示与不显示。然后在定义的函数下再加上global epoch_msg来声明全局变量。

2024-04-02 15:33:51 588 1

原创安装linux系统时镜像文件不能成功写入

到写入镜像文件时遇到了麻烦：首先使用了Win32DiskImager这个软件进行写入，显示写入成功，但是并不能打开文件显示要求格式化，但是点击格式化之后被告知有写入保护并不能进行格式化。于是想要换一个软件进行写入，这个时候需要把u盘恢复成正常u盘，于是下载DiskGenius进行u盘格式化。先是根据这个视频进行安装。

2024-04-01 16:45:24 446

原创强化学习处理影像文献阅读二（4-6）

视频摘要框架由三个主要部分组成:用于视频特征提取的具有3D卷积的时空CNN, 3D时空U-Net (3DST-UNet)和RL代理网络。使用mask，获得了一个表示轨迹中状态重要性的等级，允许选择具有高分的关键状态。目的：良好策略的算法信息可以从缺乏关于执行行为的明确信息的离线数据中提取，例如，人类或机器人的视频可能传达了许多关于奖励行动序列的隐含信息，但想要从观看此类视频中获利的DRL机器必须首先自己学习识别和识别相关状态/行动/奖励。结果：从视频的情节中识别关键状态，并了解关键状态的重要性。

2023-12-01 11:30:08 146 1

原创强化学习处理影像文献阅读一（1-3）

作者：Wenhao Wu目的：修剪视频帧提高video的识别精度和效率方法：使用强化学习作为框架思路设计网络。①先是使用了观察网络对视频特征进行提取，方法是时间段网络和C3D网络，时间段网络tsn可以提取远程时间信息，C3D提取视频时空信息。②策略网络用于估计动作空间上的概率分布，使用的是全连接层。③分类网络计算奖励和得出最终识别结果。使用了多种网络骨干，比较后得出ResNet125效果最好。网络结构图数据：ActivityNet数据集特别地：文献中对策略网络没有仔细的说明。GRU的使用和用法不懂。结果:

2023-11-27 22:27:23 122

原创 WCE视频的相关文献学习十四（53-54）

作者：目的：使用transformers模块实现WCE视频的快速定位（场景分类出胃、小肠、大肠）方法：通过识别出小肠的始端和末端从而实现场景分类。使用cnn提取特征，这里的cnn使用的是resnet和densenet两组。然后使用transformers模块进行识别分类。其识别分类不需要真个视频的搜索小肠，而是沿着中间目标边界的方向迭代分离视频片段，使用搜索算法来定位小肠的前后边界。实验还与LSTM分类等多种方法做比较。数据：中山大学附属六医院113个CEvideo特别地：其定时耗时较少为109s。

2023-11-24 10:56:05 89 1

原创 WCE视频的相关文献学习十三（LSTM）（49-52）

其还使用原始图像与伪异常图像的不同、异常图像和正常图像的不同作为参数影响模型OAM部分。③然后使用GraphSage为GCNN的基础模型对每个片段进行识别是否有异常，有异常的则进行异常的时间轴定位；BiLSTM将过去的信息、当前的输入和输出相整合在一起，得到序列的相关信息。它使用的也不是一整个视频，而是剪裁下的多个片段，以９张图片为一个序列，一段video在CNN处为八个序列，在BiLSTM阶段有16个序列。主要是在序列信息的利用下，消化道的息肉分类出来。特别地：巧妙的运用的正常与异常的差值来检测图像。

2023-11-14 23:35:41 96 1

原创 WCE视频的相关文献阅读十二

作者：张旭目的：使用更少参数实现胃癌前病变分类，即是将胃镜图片分类，溃疡、糜烂、息肉这三类方法：设计的网络名叫GPDNet。基本构架是cifar-10，用squeezeNet的fire块代替cifar-10的卷积层，并且将3X3改为1X1使得参数减少。为了维持精度，该网络结构强制让模型训练。通过设置阈值小于0.001重置为0参与模型训练，在第六次迭代，也就是在第六次强制中得到最好结果。特别地：该方法并不是强化学习，而是强制学习，迭代的强制学习。结果：GPDNet的精度最后为88.9%。

2023-11-06 21:29:40 98

原创其他文献阅读二（关于时间序列综述）

作者：程冬梅目的：综述LSTM长短期记忆网络内容：首先是前言说什么是循环神经网络RNN从中引出长短期记忆网络，其次介绍RNN循环神经网络的原理与不足，然后介绍LSTM的发展历史后对LSTM的特点与结构进行介绍，最后总结LSTM的应用领域与未来展望。特别地：重点讲述了LSTM长短期记忆网络的优点与其结构。进一步了解了LSTM是RNN的一种改进版，克服了RNN的长期依赖和梯度消散的问题。Bi RNN是双向循环神经网络。注：该文章将LSTM叙述地较为通俗易懂，也比较浅显。学习指数8。

2023-09-21 19:57:13 187 1

原创其他文献阅读一（关于时间序列）

作者：毛远宏目的：综述时间序列预测的发展与方法方法：首先介绍时间序列预测的含义及分类；其次按照使用方法来介绍时间预测，即是传统方法、机器学习、深度学习方法；然后是对未来发展的预测；最后是总结。特别地：在机器学习方面有①SVR支持向量回归，它对非线性时间序列存在稳定的预测能力；②GBRT梯度渐进回归树；③HMM隐马尔可夫模型是统计学模型。在深度学习方面①CNN卷积神经网络，其中有TCN时间卷积网络利用因果卷积和空洞卷积、残差卷积；

2023-09-18 16:27:19 343

原创 WCE的相关文献学习十一

作者：目的：基于深度学习的方法将肠胃道疾病进行分类方法：使用改进的MSSADL-GITDC基于深度学习的胃肠道疾病分类。①用MF中值滤波器技术进行图像平滑；②改进胶囊网络CapsNet进行特征提取；③用有极限学习机DBN-ELM的深度信念网络；④最后，应用反向传播对DBN-ELM模型进行监督微调。特别地：该文献的综述部分很值得学习结果：后续进行了改进，最大准确率为98.03%。注：2区Q3。学习指数9。

2023-09-14 23:00:09 151 1

原创 WCE的相关文献学习十

作者：目的：将WCE视频进行场景分类方法：使用SVC和HMM相结合的方法将WCE视频进行分割。①将RGB转换为SVC颜色空间，形成二维HS直方图，忽略强度，提取颜色特征，又用DCT压缩和PCA组成混合变化提取特征，又用LBP局部二值模式算子提取纹理特征；②使用SVC将提取到的特征进行分为入口、胃、小肠和结肠；④使用HMM进行视频分割。特别地：该方法提出较早，特征提取没有35的全面，但也和35一样用到了svm然后用HMM来进行分割。结果：实现了基本的WCE视频场景的基本分割。注：学习指数8。

2023-09-11 18:03:44 112

原创 WCE的相关文献学习九

作者：万一文目的：对胶囊内镜图像进行食道、胃、小肠、大肠的场景分类。方法：利用模式识别和统计分析的方法，通过全局约束隐马尔可夫HMM和图像配准分割来进行分类。①先时间建模，根据每个场景胶囊内镜运动的时长和时间帧间差异获得每个节点（胃总管、幽门、回盲瓣）后定量捕获连帧之间的颜色和纹理；②每个节点计算泊松拟合并把此作为HMM的约束转移的概率③用配准来进行分类，即提出颜色和纹理特征、分割，SVM分类，会根据特征点之间的差异来判别是不是同一个场景。特别地：隐马尔可夫用于视频分割，具有固定的概率。

2023-09-06 17:16:33 167 1

原创 WCE的相关文献学习八

目的:使用深度学习的方法和手动设计的特征提取，来对WCE图像的异常进行检测方法：在深度学习方面使用ResNet-50来提取深层特征，在手动特征提取方面使用EM期望最大化算法提取感兴趣区域ROI，然后对ROI进行颜色、形状、纹理的特征提取。手动提取分三步①图像增强变亮，②ROI提取，③ROI特征提取。最后用SVM分类。该文献除了深度提取方面外，其他与第二十八篇文献相同。特别地：与第二十八篇文献不同的是，这篇文献对使用的特征提取的多种方法进行了讲解，两篇文献有不同，但是不多。两篇可结合来看。

2023-09-04 22:33:42 160 1

原创 WCE的相关文献学习七

作者：肖志国目的：增强WCE图像数据集的病理样本，提高目标检测网络的泛化能力方式：使用WCE-DCGAN胶囊内镜图像深度卷积生成对抗网络生成胶囊内镜异常图像如溃疡、息肉、出血、糜烂。DCGAN增加了生成网和判别网络的网层数，WCE-ACGAN在DCGAN上增加了两个反卷积层来提高生成图的分辨率。

2023-09-03 21:37:03 202

原创 WCE的相关文献学习六

作者：Qian Zhao目的：实现对CE病理图像的定量评估。方法：使用HMM隐马尔可夫模型结合K-NN弱分类器对CE图像是否具有息肉进行二元分类。特别地：该研究只针对息肉这一病理特征，没有对其他如出血、溃疡等异常进行研究。结果：该研究框架可以识别各种长度的息肉和正常CE图像，具有良好的分类性能，识别精度大于0.9。注：不明白该框架与时间序列的关系和关于时间信息的整合。

2023-09-01 20:59:33 178 1

原创 WCE的相关文献学习五

作者：目的：辅助WCE快速阅片方法：使用分割和分类结合。①使用期望最大值算法EM对WCE的图像进行分割；②使用DeepLapV3+提取特征并加速鲁棒特征；③使用LeNet对图像分类并找到其所在位置。特别地：该文献综述了近几年WCE图像处理的算法，并与当下流行的算法进行比较。IOU是测量真实和预测之间的相关度。结果：该研究实现了99.12%的准确率，98.79%的精度，99.05%的召回率和98.49%的F1分数。

2023-08-31 21:33:21 156

原创 WCE的相关文献学习四

作者：目的：消除内镜图像的镜面反射。内窥镜图像和视频受到镜面反射（或高光）的影响，可能对图像的诊断质量产生不利影响。这些分散的白色区域严重影响了内窥镜医生的图像视觉外观和计算机辅助诊断疾病。方法：使用无参数矩阵分解。具体为将原始高光图像分解为伪低秩分量和高光分量。然后，无高光图像（即所需的输出）将成为伪低秩组件。本文利用高光组件的非稀疏特性提出了一种可推广的方法。该方法不需要任何参数设置，因此不涉及微调，使其成为无参数方法。。

2023-08-30 20:04:41 195 1

原创 WCE的相关文献学习三

目的：使用CNN进行WCE图像的去冗余方法：使用SS-VCF-Der，分析WCE的运动去除冗余。自监督学习视频帧间视觉对应表示，并预测流畅。流程①使用SS-VCF利用颜色的自然时空一致性和时间周期一致性通过像素的移动来形成流场。②判断帧的运动强度和连续帧的变化强度。③SS-VCF-MI根据是否发生场景变化的强度阈值去冗余。④保留关键帧。文献中除了叙述SS-VCF-Der方法，还对比解释了几种不同方式的自监督，如视频着色、TimeCycle、对应流等。流场使用的是对应匹配，分析了WCE运动的强度。

2023-08-29 19:28:07 168 1

原创 WCE的相关文献学习二

目的：研究颜色空间对WCE图像异常检测的意义方法:使用新的方法TICT-CNN，即是先将图像进行动态的色彩空间转换，再输入到CNN里提取特征，最后进行分类。分类类别为正常与异常。特别地：在文献里，解释了颜色空间对图像分类特征提取的重要性，其中的研究的颜色空间有HSV、RGB、YcbCr、XYZ、LAB。阐述了每个颜色空间的偏向重点。文献还对数据集进行了比较详细的说明。结果：最终颜色空间HSV在医学需要的特异性方面以及综合方便最优。它在处理纹理和颜色的综合性最好。

2023-08-28 23:17:30 174 1

原创 WCE的相关文献学习一

目的：将胶囊内镜WCE的图像中的出血图像和其他图像分类出来方法：利用出血图像的颜色和纹理，使用MobileNet模型提取特征，然后用CNN模型进行训练，构成了BIR结构进行分类。特别地：①数据样本不均衡，出血图像样本少------进行了图像增强，将出血样本图像翻转；②进行了多个模型对比，有当下优秀的其他分类模型包括机器学习和深度学习对比，还有自身结合的两种模型单拎出来的对比，结果都是BIR模型最优。结果：效果达到了准确率0.993其他：无代码来源，有网络结果但是不详细，学习指数8。

2023-08-27 23:13:46 222

qq_59782617的博客