阅读文献中常遇到的问题

Cx-living

已于 2023-03-18 20:33:08 修改

阅读量142

点赞数

分类专栏：文献文章标签：机器学习 python 算法

于 2023-02-22 20:38:50 首次发布

本文链接：https://blog.csdn.net/c_we_living/article/details/129170052

版权

文献专栏收录该内容

4 篇文章 0 订阅

订阅专栏

multi-class与multi-lable

softmax

局部归纳偏差

weakly-labeled data

context learning 和context mining

方差

方差是衡量随机变量或一组数据时离散程度的度量。

方差越大，意味着每一个变量与总体均数（均值）之间的差异越大，也就是说数据的波动越大

特征选择，特征提取，embedding

特征选择>>特征提取>>embedding

特征选择会包括一些过滤选择，不考虑冗余的情况下，特征选择的一部分可能就是前向传播（添加特征，看熵增加是否明显，来决定要不要加这个特征），反向选择（去掉特征，看对于熵的影响大小，决定要不要去掉这个特征），或者混合使用

transformer中注意力机制

Q，K，V

Q是检索，K是关键字，V是值

就相当于拿Q去检索，（例如在百度中拿‘计算机视觉’去检索），K是索引（每个索引都有对应的值），V是结果值。拿Q去检索，Q和K比较，若相同则拿到K索引对应的结果值。

多尺度信息/不同大小感受野

多尺度信息是由于不同的感受野而来的。在深度卷积神经网络中，每一层都包含多个卷积核，每个卷积核的感受野大小决定了该层所提取的特征尺度。因此，通过在不同层使用不同大小的卷积核和池化层，可以获得不同尺度的特征信息，从而提高模型的表达能力和泛化能力。

例如，在物体检测任务中，低层次的特征通常包含一些细节信息，例如边缘和纹理，对于小物体的检测非常重要；而高层次的特征通常包含物体的语义信息，例如物体的整体形状和结构，对于大物体的检测非常重要。因此，在深度卷积神经网络中，通过使用不同大小的卷积核和池化层，可以在不同层次上提取不同尺度的信息，从而实现多尺度的特征提取和表示。

总之，感受野的大小决定了特征提取的尺度，而多尺度信息是由于在不同层次上使用不同大小的感受野而来的。

few-shot

"Few-shot"通常用于描述机器学习算法的一种能力，即仅使用非常有限的数据集（通常是几十个或更少的数据点）来进行训练并进行准确的预测。因此，它确实涉及数据集数量的概念，但不是简单地意味着数据集很小。

在传统的机器学习中，通常需要大量的数据集来训练算法，以获得良好的性能。然而，"few-shot"指的是在给定非常少的数据集的情况下，算法能够仍然能够快速、有效地学习并进行准确的预测。这对于许多实际应用程序非常有用，因为在某些情况下，收集大量的数据可能是困难或不现实的，或者数据可能需要实时更新。

因此，"few-shot"并不仅仅意味着数据集数量很少，而是指算法能够在非常有限的数据集上进行有效的学习和泛化的能力。

泛化能力

在机器学习中，模型的泛化能力是指其在未见过的数据上的表现能力。如果模型只能够对已知数据集表现良好，而不能对未知数据进行准确的预测或分类，那么它的实用价值就会受到严重限制。学习一般化特征可以提高模型的泛化能力，使得模型能够识别未见过的数据中的模式，并将其应用于新数据中。

学习一般化特征的方法包括但不限于以下几种：

正则化：正则化是通过在损失函数中添加正则化项来约束模型的复杂度，以减少过拟合和提高泛化能力。
数据增强：通过对已有数据进行一定的变换、扩充等操作，使得模型能够更好地应对未知数据的变化。
迁移学习：迁移学习是一种将已有知识应用到新领域中的方法，通过从已有数据集中学习到的特征来帮助解决新问题。

总之，学习一般化特征对于提高机器学习模型的泛化能力非常重要，可以使得模型在未知数据上的表现更好，更适用于实际应用场景。

医学图像分割是指从医学图像中分离出特定的区域或结构，例如肿瘤、血管、器官等。在医学领域中，由于患者隐私、数据采集成本等因素，获取大量训练数据非常困难。因此，模型的泛化能力变得尤为重要，因为它可以使模型从很少的数据中学习到一般化的特征，从而提高模型的准确性和鲁棒性。

此外，由于医学图像的数据特征复杂、噪声大、样本类别不平衡等问题，模型需要具有强大的泛化能力，以避免过拟合和欠拟合等问题。因此，设计能够在少量训练数据下实现良好泛化性能的模型算法是医学图像分割领域的一个重要研究方向。

BN层

归一化操作会提高泛化能力

BN的存在，主要起因于数据分布的问题，若训练的数据和测试的数据本身分布不一样，那么训练后的模型就很难泛化到测试集上。

BN层的作用是对一个batch内的所有样本进行标准化，将不规范的样本分布变换为正态分布。处理后的样本数据分布于激活函数的敏感区域（梯度值较大的区域），因此在反向传播时能够加快误差的传播，加速网络训练。

归一化操作有多种方式，不同的方式在训练中产生不同的效果

参考：神经网络中的BN操作（常见正则化处理）_夢の船的博客-CSDN博客

multi-class与multi-lable

multi-class问题指的是将图像分为多个不同的、互不重叠的类别中的一个。每张图像只能被分为一个类别，因此每个样本只有一个标签。例如，对于一个动物分类问题，可能需要将图像分为猫、狗、鸟等类别中的一个，而每个图像只能被分为一个类别。

multi-label问题指的是将图像分为多个不同的类别中的一个或多个。每个样本可以被分为多个标签，标签之间可能存在重叠。例如，在一个图像中可能同时包含多个物体，如人、车、树等，这时可以将这个图像分为人、车、树等多个标签。

在某些情况下，multi-class问题可以看作是multi-label问题的一种特殊情况，即每个样本只有一个标签的multi-label问题。因此，可以使用一些多标签分类的方法来解决multi-class问题，但是反之则不成立。在实际应用中，需要根据具体的问题类型和数据集情况选择合适的分类方法。

（也就是说multi-class是指仅能将图像分为一个类，而multi-lable是指可以给一个图像一个或多个标签）

softmax

语义分割中的softmax过程

当得到最终的特征图后，实际上这些特征图是全局的特征图，但是由于每个特征图的关注点不同，所以可能会存在一些差异，例如在特征图1中，特征图1更关注兔子耳朵这部分，所以这部分的结果相比与其他部分的结果可能更准确些，特征图2中，特征图2可能更关注兔子嘴巴这部分，所以特征图中兔子嘴巴的这个区域相较于特征图2中兔子耳朵的区域要更准确些,；但是所有特征图都是全局的结果(假设特征图为最终要进行像素分类的特征图)，然后所有特征图进入softmax函数，函数给出每个像素点属于每个类别（属于背景、猫、兔子....）的得分值，然后转化成0-1的概率值。

参考：Softmax分类器_筱筱思的博客-CSDN博客

局部归纳偏差

局部归纳偏差（inductive bias）是机器学习模型在从训练数据中学习到假设或模型时所使用的先验偏好或偏置，这些先验偏好或偏置可能来自于算法、数据、特征等方面。具体来说，局部归纳偏差指的是模型在学习时所使用的一种偏好或约束，使得它更有可能从训练数据中学习到一些特定类型的函数或关系。这些偏好或约束可以帮助模型进行更快、更准确的学习，同时也可以防止模型过度拟合训练数据。

例如，决策树模型的局部归纳偏差是“分裂属性越重要，越应该在先前的节点进行分裂，以便更好地区分不同的样本”。这个偏好可以使得决策树更快、更准确地学习到数据中的决策规则。在深度学习中，卷积神经网络的局部归纳偏差是“卷积核应该具有局部连接性和权值共享，以便更好地识别局部特征”。这个偏好可以使得卷积神经网络更有效地学习到图像等数据中的局部特征。

总之，局部归纳偏差是机器学习模型在从训练数据中学习到假设或模型时所使用的一种先验偏好或偏置，这些偏好或约束可以帮助模型进行更快、更准确的学习，同时也可以防止模型过度拟合训练数据。它是机器学习中非常重要的一个概念，对于理解机器学习算法的工作原理和优化方法都具有重要意义。

weakly-labeled data

弱标签数据是指标签不完全精确或准确，并且可能包含错误或噪声的数据类型。与强标记数据(每个数据点都与一个正确的标签相关联)不同，弱标记数据只提供关于数据点真实标签的部分信息。

弱标记数据可能出现在各种场景中，例如在图像或视频数据中，只有场景中的一些对象被标记，或者在文本数据中，只有某些关键字或短语被标记。

弱标签数据给机器学习算法带来了挑战，因为标签中存在的噪声和模糊性会使准确学习模式和推广到新的、看不见的数据变得更加困难。然而，半监督学习和主动学习等技术可以用来帮助缓解这些挑战，并以更有效的方式利用弱标记数据。

context learning 和context mining

Context learning和context mining都涉及到对上下文信息的处理，但它们的重点和应用场景有所不同。

Context learning通常是指通过对已有的上下文信息进行分析和学习，来提高对未知上下文信息的理解和应用能力。例如，利用自然语言处理技术对文本中的语境和语义进行分析和学习，从而提高文本理解和生成的能力。在机器学习中，context learning也可以指利用已有的数据和特征信息来训练模型，提高模型的泛化能力和预测能力。

Context mining则更多地强调对未知上下文信息的挖掘和发现。它通常是指通过对大量的上下文信息进行数据挖掘和分析，来发现其中的模式和规律，并从中获取有用的信息和知识。例如，在社交媒体中，可以利用context mining技术来挖掘用户的兴趣和行为模式，从而提供个性化的推荐服务。

因此，context learning更注重对已有信息的学习和理解，而context mining更注重对未知信息的挖掘和发现。

dense embedding和特征图

Dense embedding和特征图是深度学习中常用的两种表示数据的方式，它们有一些相同之处，但也有一些区别。

相同点：

都是表示数据的方式：Dense embedding和特征图都是用来表示数据的方式，可以用来描述输入数据的特征。
都能够进行深度学习：Dense embedding和特征图都可以用于深度学习任务中，如图像分类、目标检测等。

区别：

数据类型不同：Dense embedding通常用于处理文本数据或序列数据，而特征图通常用于处理图像数据或视频数据。
数据结构不同：Dense embedding是一个向量或矩阵，每个元素都表示输入数据的一个特征。特征图是一个三维张量，其中每个元素都表示输入数据的一个局部区域的特征。
建模方式不同：Dense embedding通常使用全连接层或者循环神经网络来进行建模，而特征图通常使用卷积神经网络来进行建模。
应用场景不同：Dense embedding通常用于文本分类、情感分析、推荐系统等任务中。特征图则通常用于图像分类、目标检测、人脸识别等任务中。

总之，Dense embedding和特征图都是深度学习中常用的数据表示方式，可以用于不同类型的深度学习任务中。它们的区别在于数据类型、数据结构、建模方式和应用场景等方面。

语义信息

语义信息可以通俗的理解成图像的纹理，颜色，或者目标的类别等信息，图像输入到网络中，经过卷积计算，语义信息会越来越明显，但感受野也越来越大，就会使位置信息越来越弱，因此，局部的位置信息感受就比较差。

CAM（类激活热力图）

CAM 算法是论文《Learning Deep Features for Discriminative Localization》中提出的，作者发现 CNN 网络虽然在训练时可能未提供对象的位置，但是仍然具有很强的定位特征能力，如上图所示。上图是 CAM 运行的效果，可以看到对于刷牙这一类，CNN 能有效地定位到牙刷，而对于锯树，CNN 能有效定位到电锯。

一、方法简介

最后一层卷积层输出的特征图包含 n 个通道，利用该类的权重将特征图的 n 个通道加权求和，再映射到原始图片上即可得到不同区域的重要程度。（即对于该类来说哪一个区域是重要的，比方说上文说的电锯，图像中不仅具有电锯还具有木头，而重点是在于找电锯这一类）这里是由于特征图和原始图尺寸不同，所以要映射，CAM 直接使用 resize 将特征图缩放到和原始图一样的大小。接下来介绍 CAM 的一些公式。

对于一幅图像，可以用下面的公式计算出其属于类别 c 的得分，其中 k 表示最后一个卷积层的通道，xy 表示特征图的坐标，f 表示特征图，w 表示 Softmax 的权重:

对于类别 c，我们可以得到图片各个区域重要性的映射图，公式如下，即将特征图加权求和得到:

参考：CAM 学习笔记_cam深度学习_♡坚持の到底的博客-CSDN博客

GAP（全局平均池化）

在CAM中很常见，是其核心

主要就是将一张特征图对类别进行平均，获得一个值，然后就形成了一维向量，再进行处理，因此可以得到分数图

参考：全局平均池化层（GLP）-CSDN博客

弱监督语义分割（WSSS）

主要步骤：训练图像分类器，通过分类器的CAM获取每张图像在分类中被激活的区域（物体定位图），之后生成伪标签mask作为监督信号训练语义分割模型。

边界模糊和共生问题

在边界模糊的情况下，由于不同区域之间的边界模糊或不清晰，像素值可能存在一些渐变或过渡，从而导致边缘区域的像素值比较模糊或不确定，这使得算法难以准确地将像素分配到正确的区域中，从而产生分割误差。

共生现象是指在图像分割训练过程中，由于不同区域中出现了相似的像素值，而导致算法难以准确地将像素分配到正确的区域中。例如，两个不同区域中出现了相同的颜色或纹理，算法可能会将它们错误地分配到同一个区域中，从而产生分割误差。

需要注意的是，边界模糊和共生现象并不是互斥的，它们有可能同时存在，从而加剧图像分割的误差。因此，在进行图像分割时，需要针对不同的问题采取不同的解决方案，以提高分割的准确性和性能。

两矩阵相乘计算相似度

两个特征矩阵相乘可以计算相似度得分，这是因为两个特征矩阵的乘积结果可以反映出它们之间的相似程度。

具体地说，如果将两个特征矩阵表示为$A$和$B$，则它们的乘积$A \cdot B$会得到一个新的矩阵$C$。在$C$中，第$i$行第$j$列的元素$c_{ij}$表示$A$的第$i$行与$B$的第$j$列的向量点积的结果，也就是$A$的第$i$行向量与$B$的第$j$列向量之间的相似程度。（第i行向量其实是A矩阵对应的图像的一个像素，之所以成为向量是有通道的存在）

因此，如果将$A$和$B$视为两个向量空间中的向量，它们的乘积$A \cdot B$可以用来计算它们之间的相似度得分。这是因为向量点积的结果可以反映出两个向量的夹角大小，夹角越小表示两个向量越相似，夹角越大表示两个向量越不相似。在机器学习领域，将两个向量的点积作为它们之间的相似度得分在许多任务中都得到了广泛的应用，例如推荐系统、文本相似度计算等。