论文知识点（补）

向天笑。

已于 2023-05-06 15:28:41 修改

阅读量159

点赞数 1

文章标签：学习

于 2023-05-06 15:19:37 首次发布

本文链接：https://blog.csdn.net/qq_56513468/article/details/130528086

版权

时间戳:

时间戳是一份能够表示一份数据在一个特定时间点已经存在的完整的可验证的数据。

（1）Positive pairs：正样本对

（2）negative pair：负样本对

（1）假阳性：把不具备你所指特征的对象当做是具备这种特征的对象；

（2 ）假阴性：把那些本来就具备你想要确定特征的对象，当做是不具备这些特征的对象而放过

点云：

点云是一个数据集，数据集中的每个点代表一组X、Y、Z几何坐标和一个强度值，这个强度值根据物体表面反射率记录返回信号的强度。当这些点组合在一起时，就会形成一个点云，即空间中代表3D形状或对象的数据点集合。点云也可以自动上色，以实现更真实的可视化

亲和图：

亲和图是一种通过将某件事的数据资料间的相互关系，对其进行归纳、分类整理，然后再进行分析讨论，找出能够解决问题的方法。

heading angle

车辆航向角:通常指地面坐标系下，车辆质心速度与横轴的夹角

3D MOT：
三位多目标跟踪

匈牙利算法：

是一种在多项式时间内求解任务分配问题的组合优化算法。设G=（V,E）是一个无向图。如顶点集V可分割为两个互不相交的子集V1,V2，选择这样的子集中边数最大的子集称为图的最大匹配问题。如果一个匹配中，V1<=V2且匹配数M=V1，则称此匹配为完全匹配，也称作完备匹配。特别的当V1=V2称为完美匹配。

在线计算工具：https://www.hungarianalgorithm.com/solve.php?c=77-76-26-2–34-18-98-76–90-64-79-27–95-86-85-42&steps=0&random=1

奇异值分解(Singular Value Decomposition，以下简称SVD)算法：

解决最小二乘问题的一种算法。与特征值分解(EVD）类似。特征值及特征值分解都是针对方阵而言，现实世界中，我们看到的大部分矩阵不是方阵，比如每道数据有m个点，一共采集了n道数据，这样就形成了一个m*n的矩阵，那么怎样才能像方阵一样提取出它的特征，以及特征的重要性。奇异值分解就是来干这个事情的。奇异值相当于方阵中的特征值，奇异值分解相当于方阵中的特征值分解。

最小二乘问题：

最小二乘问题通常可以表述为,通过搜集到的一些数据(获取得到的样本),对某一个模型进行拟合,并尽可能的使得模型结果和样本达到某种程度上的最佳拟合。主要思想就是求解未知参数，使得预测值与观测值之差（即误差，或者说残差）的平方和达到最小。

precision&recall
https://zhuanlan.zhihu.com/p/390878343

卡尔曼滤波：

从一组有限的，对物体位置的，包含噪声的观察序列中预测出物体的坐标位置及速度。比如，在雷达中，人们感兴趣的是跟踪目标，但目标的位置、速度、加速度的测量值往往在任何时候都有噪声。卡尔曼滤波利用目标的动态信息,设法去掉噪声的影响，得到一个关于目标位置的好的估计。这个估计可以是对当前目标位置的估计(滤波)，也可以是对于将来位置的估计(预测)，也可以是对过去位置的估计(插值或平滑)。

PBFT原理：

在系统中有一个节点会被当做主节点，而其他节点都是子节点。系统内的所有节点都会相互通信，最终目标是大家能以少数服从多数的原则达成数据的共识。

C代表客户端，0，1，2，3 代表节点的编号，打叉的3代表故障节点或者是问题节点，这里表现为故障节点。0 是主节点。n 是总节点数，f 为有问题的节点。
request阶段：首先客户端向主节点发起交易请求。
pre-prepare阶段：主节点收到来自客户端的请求后，将信息打包，向全网广播请求信息。
prepare阶段：所有节点在收到主节点广播的信息后，把带有自己签名的投票消息广播给其他节点。
commit阶段：主节点在收到来自2f+1个诚实节点的反馈后，将消息打包反馈给客户端。
注：当主节点出现不诚实或者作恶行为时，就会触发视图更换协议，重新选取新的主节点。
缺点：中心化，由于要保证各个节点间的频繁的通信，所以节点数不能太多。门槛高，由于pBFT 不能防止女巫攻击，也就无法防御一个恶意用户用多个账户来进行共识的造假行为，所以需要审核加入节点。

DDPG算法：

Google DeepMind提出的一种使用Actor-Critic 结构，但是输出的不是行为的概率，而是具体的行为，用于连续动作的预测。

DDPG神经网络,基于策略Policy的神经网络和基于价值的Value神经网络，每种神经网络都需要再细分为两个，Policy这边，有估计网络和现实网络，估计网络用来输出实时的动作，供actor在现实中实行，而现实网络则是用来更新价值网络系统的。对于价值系统，也有现实网络和估计网络，输出都是这个状态的价值，而输入端却有不同，状态现实网络这边会拿着从动作加上状态的观测值加以分析，而状态估计网络则是拿着当时Actor施加的动作当作输入。

现实Actor和目标Actor网络结构一样，输入都是状态，输出是动作;
现实Critic和目标Critic网络结构一样，输入都是状态和动作，输出这个状态下采取这个动作的评分Q

map-reduce：

Map-Reduce是一种分布式计算模型，用于处理大规模数据集。它由Google公司首先提出并应用于分布式计算系统，主要应用于大规模数据集的并行处理，可以将一个大规模的数据集划分成多个小数据块，分发给不同的处理器并行处理，最终将处理结果合并得到最终结果。

Map-Reduce模型由两个核心操作组成：Map和Reduce。
Map操作将输入数据分割成若干个小块，每个小块由一个Map函数处理。Map函数将输入数据映射为一组键值对，其中键是处理的结果，值是输入数据。这个键值对可以被传递给Reduce函数进行处理。
Reduce操作将一组键值对按照键进行归并，并输出结果。Reduce函数会将相同键的所有值组合起来，得到输出结果。最终的结果就是所有Reduce函数输出结果的合并。
Map-Reduce模型的优点在于，它可以很好地处理大规模数据集，并行处理多个任务，从而提高计算效率。同时，Map-Reduce模型也可以很好地扩展到分布式计算系统中，支持分布式处理大规模数据集，提高系统的可靠性和可扩展性。

缓存命中率:

缓存命中率是指在进行计算或数据访问时，所需的数据或指令能够被缓存中的数据所满足的比例。当需要的数据或指令能够被缓存中的数据所满足时，就称为命中（hit）；反之，则称为未命中（miss）。

例如，假设计算机需要访问一个内存地址中的数据，如果该数据已经存储在缓存中，那么就可以从缓存中直接读取该数据，这个过程就称为命中。如果该数据没有存储在缓存中，那么就需要从内存中读取该数据，这个过程就称为未命中。缓存命中率就是命中的次数与总访问次数的比例。
缓存命中率是衡量计算机性能的重要指标之一，高缓存命中率可以提高计算机的运行速度，减少对内存等慢速存储器的访问，从而提高计算机的性能和响应速度。

数据请求提供服务时的打包机制是什么意思?

在数据请求提供服务中，打包机制是将多个数据请求合并成一个数据包进行传输的技术。

通常情况下，每个数据请求都需要建立一次连接，并传输一次数据。如果每个请求都需要建立连接和传输数据，那么将会消耗大量的时间和网络带宽资源。而采用打包机制可以将多个数据请求合并成一个数据包进行传输，从而减少连接建立和数据传输的次数，提高数据传输的效率。
在打包机制中，多个数据请求被合并成一个数据包，并在网络上传输。接收端在收到数据包后，需要对数据包进行解包，将其中的多个数据请求分离出来，然后再进行处理。打包机制通常需要考虑数据包的大小、传输延迟和数据请求的实时性等因素，以保证数据传输的效率和可靠性。
打包机制在一些数据请求频繁但数据量较小的场景下具有较好的应用效果，如在线游戏、即时通讯等。但是在数据请求较大或者实时性要求较高的场景下，可能会影响请求响应的速度和准确性。

LSTM

LSTM（Long Short-Term Memory）是一种循环神经网络（RNN）的变体，专门设计用于解决RNN中的梯度消失问题，并能够更好地处理长序列数据。LSTM最初由Hochreiter和Schmidhuber在1997年提出，已成为序列建模中最受欢迎的神经网络之一。

与传统的RNN不同，LSTM引入了一个内存单元，可以长期保留信息，并且包含三个门机制（输入门、遗忘门和输出门），可以控制信息的流动，并允许网络选择性地保留或忘记信息。输入门可以控制在新数据到来时，应该更新多少信息，而遗忘门可以控制哪些信息应该被遗忘，以及输出门可以控制有多少信息应该传递给下一个时间步。
由于其出色的长期记忆性和表达能力，LSTM已经被广泛应用于许多序列数据的任务，如语音识别、机器翻译、自然语言处理、视频分析等等。

梯度消失什么意思，为什么会消失?

梯度消失（Vanishing Gradient）是指在神经网络中进行反向传播时，较低层的权重梯度变化非常小，甚至趋近于0，导致这些层无法更新，从而影响模型的训练效果。这种情况通常发生在深度神经网络（Deep Neural Networks）中，特别是在使用某些特殊的激活函数（如sigmoid）时，因为这些函数的导数在某些区间内很小，梯度很快会消失。

在反向传播算法中，梯度是指目标函数（通常是损失函数）对网络参数的偏导数。当反向传播算法从输出层向输入层反向传播时，梯度会通过链式法则不断相乘。如果梯度值小于1，并且这种情况在多层网络中反复出现，那么这些梯度值会变得非常小，并最终趋近于0，这就是梯度消失的原因。
梯度消失可能导致网络难以训练，因为它使得低层的参数无法更新，从而限制了网络的表达能力。为了解决这个问题，一些技术被提出，比如LSTM、GRU、残差连接等，这些方法可以有效地缓解梯度消失问题，并提高深度神经网络的性能。

DMP是运动生成模型（Dynamic Movement Primitive）的缩写，是一种基于非线性系统理论和机器学习技术的运动控制框架，可以用于实现人类灵巧动作的复制和再现，也可以用于机器人运动控制和学习。

DMP的核心思想是将复杂的动作分解成一系列简单的基本动作单元，每个基本动作单元都可以使用一个非线性微分方程进行描述，称为DMP核心函数。DMP核心函数包含了目标轨迹的运动学和动力学特征，并可以通过调整参数来实现轨迹的变形和速度的调整，从而实现不同的运动效果。
除了核心函数外，DMP还引入了一个称为“动态系统”的辅助系统，用于控制DMP核心函数的行为，包括速度调整、动作复制、避障等。动态系统可以通过学习和反馈控制来适应不同的环境和任务，从而实现更加灵活的运动控制。
DMP被广泛应用于机器人运动控制和学习、人机交互、手写识别、动作捕捉等领域，并取得了良好的效果和应用。

MPC是模型预测控制（Model Predictive Control）的缩写，是一种现代控制理论方法，通过将未来一段时间内的系统行为进行预测，并将预测结果与控制目标进行优化来实现控制。
MPC方法通常包括以下几个步骤：1. 建立系统模型：通过对控制对象进行建模，建立数学模型，包括系统的动态方程、状态方程等。2. 预测未来系统行为：通过系统模型进行仿真，预测未来一段时间内的系统行为，包括状态、输出和性能指标等。3. 生成控制策略：根据预测结果，将控制目标转化为一组优化问题，并生成最优的控制策略。4. 实施控制：将控制策略转化为具体的控制信号，实施控制，并根据实时反馈信息调整控制策略,相比传统的PID控制和经验式控制，MPC方法具有更高的控制精度、更好的适应性和鲁棒性，适用于各种复杂的非线性系统控制问题。MPC方法在自动驾驶、化工过程控制、机器人控制、航空航天控制等领域得到了广泛应用。

freshness: 数据的新鲜度或更新程度

反向训练

反向训练（Backpropagation）是深度学习中常用的一种训练神经网络的方法。其基本思想是通过计算损失函数对模型参数的梯度，然后利用梯度下降算法来更新模型参数，以最小化损失函数。

具体来说，反向训练的过程如下：1. 前向传播：将输入数据送入神经网络中，通过一系列的神经元计算得到输出结果。2. 计算损失函数：将网络的输出结果和真实标签进行比较，计算出损失函数的值。3. 反向传播：通过计算损失函数对每个模型参数的梯度，将梯度从输出层向输入层进行反向传播。4. 更新模型参数：使用梯度下降算法，根据梯度方向对模型参数进行更新。
重复以上步骤，直到达到预定的训练轮数或满足一定的停止条件。
反向训练之所以能够有效地训练神经网络，是因为通过计算梯度，可以知道每个参数对损失函数的贡献大小，从而对参数进行调整。由于神经网络通常具有大量的参数，反向训练使得在每次迭代中可以同时更新所有参数，从而加快了训练速度。
总之，反向训练是深度学习中非常重要的一种训练方法，它能够对神经网络进行有效的训练，并使得网络的性能得到不断提升。

成本函数

成本函数（Cost Function）也称为损失函数（Loss Function）或目标函数（Objective Function），是机器学习中用来衡量模型预测结果与真实结果之间差异的函数。

在训练机器学习模型时，我们需要将模型输入训练数据，让它学习从输入到输出的映射关系。成本函数用来评估模型的预测结果与真实结果之间的差距。通常情况下，成本函数越小，模型的预测结果越接近真实结果。
在不同的机器学习任务中，成本函数的形式和定义不同。例如，在分类任务中，常用的成本函数包括交叉熵（Cross Entropy）和对数损失（Log Loss）等；在回归任务中，常用的成本函数包括均方误差（Mean Squared Error）和平均绝对误差（Mean Absolute Error）等。
成本函数的选择非常重要，因为它直接影响着模型的学习效果。一般来说，我们希望选择一个合适的成本函数，使得模型能够在训练数据上得到较小的损失值，并且在测试数据上能够泛化到未见过的数据。

端到端学习:

指从输入端到输出端直接学习输入与输出之间的映射关系，而无需显式地提取中间特征或设计复杂的流水线。简单来说，端到端学习就是将整个系统看做一个黑盒子，通过训练来自动学习输入到输出之间的映射关系，从而实现对任务的直接解决。

在传统的机器学习中，我们往往需要手动设计特征提取器或构建多个模块的复杂流水线来完成任务。例如，在图像识别中，我们需要先使用特征提取器提取图像的特征，再使用分类器对这些特征进行分类。而在端到端学习中，我们直接将原始图像输入到神经网络中，让神经网络自动提取图像中的特征，并输出对应的分类结果。
端到端学习的优点在于它可以自动学习特征，减少了人工设计特征的工作量，而且可以更好地利用数据进行学习，提高了模型的泛化性能。同时，端到端学习还可以避免特征之间的信息损失，提高了模型的鲁棒性和可解释性。
端到端学习适用于很多机器学习任务，例如图像识别、语音识别、自然语言处理等。虽然端到端学习可以避免手动设计特征的问题，但也存在着一些挑战，例如需要更多的数据和计算资源，以及对模型的选择和调整等问题。

联邦学习

https://zhuanlan.zhihu.com/p/79284686

每个参与方利用本地数据训练模型，加密梯度上传给服务器A，服务器A聚合各用户的梯度更新模型参数。那么服务器是怎么根据梯度去更新模型的呢?

在联邦学习中，服务器通常使用一种叫做模型聚合（model aggregation）的方法来根据不同设备上传的梯度更新模型参数。

在模型聚合的过程中，每个设备（参与方）计算出本地模型的梯度，对梯度进行加密（保护用户隐私）后上传给服务器。服务器收到所有设备上传的梯度后，根据一定的规则（如 Federated Averaging 算法）将所有梯度合并（聚合）起来，生成一个全局的模型梯度，然后利用这个全局梯度更新模型参数。更新后的全局模型参数会再次发送给所有参与方，让他们基于最新的全局模型参数继续进行本地训练。
通常，在联邦学习中，服务器利用梯度下降等优化算法来更新模型参数。在服务器接收到各个参与方上传的梯度后，服务器会先对这些梯度进行聚合，得到全局的模型梯度。然后，服务器会使用这个全局模型梯度，根据一定的优化算法（如随机梯度下降），更新模型的参数。
需要注意的是，在联邦学习中，服务器并不直接访问参与方的原始数据，因此服务器只能利用参与方上传的梯度来更新模型参数，而不能直接使用原始数据进行训练。这也是联邦学习能够保护用户隐私的重要原因之一。

梯度下降与梯度上升有什么区别?

梯度下降（Gradient Descent）和梯度上升（Gradient Ascent）是相似的优化算法，它们的区别在于优化的目标不同。

梯度下降的目标是最小化损失函数，即让损失函数的值尽可能地小。在梯度下降中，我们迭代地更新模型参数，使得损失函数在当前参数值处的梯度方向上下降。因此，梯度下降也被称为最小化算法。
相反，梯度上升的目标是最大化某个函数，即让函数的值尽可能地大。在梯度上升中，我们同样迭代地更新模型参数，但是使得函数在当前参数值处的梯度方向上升。梯度上升也常被用于最大化似然函数，从而找到模型参数的最优值。
总之，梯度下降和梯度上升的区别在于优化的目标不同。梯度下降的目标是最小化损失函数，梯度上升的目标是最大化某个函数。但是在实践中，这两种算法的实现方式基本相同，都是通过计算梯度来更新模型参数。

自我知识蒸馏与知识蒸馏的区别，请分点描述?

自我知识蒸馏（Self-Knowledge Distillation）是知识蒸馏（Knowledge Distillation）的一种变体，两者之间有以下几点不同：
1. 教师网络和学生网络不同：在知识蒸馏中，通常需要一个额外的教师网络来提供知识。而在自我知识蒸馏中，教师和学生使用同一个模型，即学生模型自己“教”自己。2. 教师网络的生成方式不同：在知识蒸馏中，教师网络通常是通过在大型数据集上训练而来。而在自我知识蒸馏中，教师网络是通过在先前的训练轮次中得到的结果生成的。3. 训练方式不同：在知识蒸馏中，通常需要对教师和学生分别进行训练，并在学生网络中加入额外的温度参数等。而在自我知识蒸馏中，只需要对单个模型进行训练，不需要额外的参数。4. 计算资源需求不同：由于自我知识蒸馏不需要额外的教师网络，因此在一定程度上可以减少计算资源的需求，更加高效地进行模型压缩和优化。5. 应用场景不同：知识蒸馏通常应用于将大型模型压缩到较小的模型上，而自我知识蒸馏更适合于在单个模型内部进行模型优化和自适应。
总的来说，自我知识蒸馏可以更加高效地进行模型压缩和优化，同时也具有一定的灵活性，适用于不同的任务和模型。

列举一些联邦学习中的聚合方法

1.FedAvg：联邦平均（Federated Average）算法是联邦学习中最常用的聚合方法之一。它简单地将所有客户端的模型参数求平均值作为新的全局模型参数，并且在聚合时使用了加权平均，以考虑每个客户端的本地数据集的大小。该算法的优点是简单易用，同时也可以在实际应用中取得不错的效果。
2. FedProx：联邦带约束（Federated Proximal）算法通过引入一个正则化项，来对全局模型进行约束，以防止过度拟合。这个正则化项被称为“近端项”，可以控制全局模型的收敛速度和精度。该算法对于具有高度异质性的联邦学习任务特别有用。3. FedAvgM：联邦平均增强（Federated Average with Momentum）算法通过引入动量，来加速全局模型的收敛。动量可以帮助防止全局模型陷入局部最小值，并提高全局模型的泛化能力。4. FedSGD：联邦随机梯度下降（Federated Stochastic Gradient Descent）算法可以在具有高度异质性的数据集上提高全局模型的性能。该算法通过在每个客户端上执行多个随机梯度下降步骤，来帮助客户端更好地拟合本地数据。在聚合时，它只考虑了每个客户端的最后一个梯度，以保持较低的通信开销。
这些方法都旨在更好地利用客户端之间的异质性，并提高全局模型的准确性和泛化能力。

向天笑。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
论文知识点（补）

特征值及特征值分解都是针对方阵而言，现实世界中，我们看到的大部分矩阵不是方阵，比如每道数据有m个点，一共采集了n道数据，这样就形成了一个m*n的矩阵，那么怎样才能像方阵一样提取出它的特征，以及特征的重要性。梯度消失（Vanishing Gradient）是指在神经网络中进行反向传播时，较低层的权重梯度变化非常小，甚至趋近于0，导致这些层无法更新，从而影响模型的训练效果。Google DeepMind提出的一种使用Actor-Critic 结构，但是输出的不是行为的概率，而是具体的行为，用于连续动作的预测。
复制链接

扫一扫