LinKouun-CSDN博客

原创 linear/ridge/kernel regression中representer theory的证明 & 对gradient descent中implicit regularization的解释

使用大写字母XXX表示矩阵（向量），小写加粗字母表示列向量x\mathbf{x}x，小写字母表示标量xxx。X∈Rn×pX∈Rn×p其中n为样本数，p为特征数。Y∈Rn×1Y∈Rn×1β∈Rp×1β∈Rp×1：模型参数。In∈Rn×nIn∈Rn×n：单位矩阵。xi∈Rp×1xi∈Rp×1：第iii个样本。注：矩阵求导一致采用分母布局。YXβYX。

2025-02-16 23:08:13 981

原创 [论文阅读] Knowledge Fusion of Large Language Models

整体Pipeline如下图所示不同的动物代表不同的LLM。左边第一，第二分别是是Ensemble以及Weight Merging方法。最右侧为本文提出的FuseLLM。

2025-02-07 22:01:59 1109 1

原创论文阅读 Multi-view Classification Using Hybrid Fusion and Mutual Distillation

送入Transformer中。其中单个视角分别送入各自的Transformer，输出单一视角预测；多个视角特征融合，送入一个Transformer，输出多视角预测。N个视角的输入图像，对应N+1个Transformer。为第一个视角的输入样本。转为Token形式，以便之后送入Transformer：首先将空间维度。为prediction vector。表示Transformer。

2025-01-22 15:09:55 911 1

原创 autodl安装对应版本的cuda

使用如下命令搜索可用的cudatoolkit版本。随后使用conda安装。

2025-01-18 12:07:22 841

原创论文笔记 SliceGPT: Compress Large Language Models By Deleting Rows And Columns

的后面）

2024-11-25 22:54:46 2143 1

N6LayerNormxSubLayerx))x: SliceGPT如何解决各层hidden dimension一致的问题？：同样为6个Block。有两个多头注意力子层，一个FNN子层。且使用自回归的方式：t时刻Decoder的输入，为。为什么用LN而不是BN？BN针对特征做归一化，LN则针对样本。LN在机器翻译中会用的更多，主要是因为输入序列的长度通常不一致。（在训练中，使用zero padding来解决输入长度不一致的问题）。

2024-11-24 00:05:25 966

原创 autodl平台运行slowfast 代码笔记

将两者拼接得到[2304]，然后经过FC层[2304,80]，sigmoid，输出label概率。将两者拼接得到[2304]，然后经过FC层[2304,80]，sigmoid，输出label概率。的含义，是指中间帧。比如fast pathway，一次性要处理的是32帧，我们实际上将。取出来作为label，而不是用所有的frames的所有boxes的labels。代表slow与fast streams通道数之比。-> s_pool：7*7的池化，得到。t_pool：平均池化，时间轴化为1。

2024-11-17 16:09:44 1024

原创 Fisher矩阵和Hessian矩阵的关系：证明Fisher为负对数似然函数的Hessian的期望

fθ⋅: 概率密度px∣θpθxi∏Nfθ⋅: 似然函数sθ∇θfθ⋅: score function，即似然函数的梯度。IEpθx[(∇θlogpθx))∇θlogpθxT: Fisher矩阵。

2024-11-15 12:40:30 1087

原创论文笔记 SuDORMRF：EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION

相比于常规卷积，可以减少参数和计算量。1×1我们以input feature map shape为12123∈RH×W×C，卷积核shape为553∈Rkh×kw×C, stride = 1, padding = 0，卷积核数量为256（输出通道数为256），output feature map shape为[8,8,256]的情况为例。

2024-11-13 20:39:04 892 1

原创论文笔记 A-FRCNN: speech-separation-using-an-asynchronous-fully-recurrent-convolutional-neural-network

xi1∑Csiσ1其中x∈R1×T为混合音频信号，si∈R1×T为第i个说话人的音频信号，σ∈R1×T为噪声。T为信号长度，C为说话人数量。总体pipeline如figure 2所示：Encoder将输入x分成K个语音分段xk∈R1×L，将每个语音分段转化为特征向量rk∈R1×LrkxkUе2其中Uе为权重矩阵。Encoder可以通过一维卷积实现。

2024-11-10 10:30:27 890 1

原创 Levenberg-Marquardt算法(LM)的前世今生

这就是反向传播当中最初的梯度下降方法，由此往后衍生出momentum，adagrad，adam等。假设目标函数为凸函数（随后的几种方法也是利用了最小二乘法，假设目标函数为开口朝上的二次函数，属于凸优化问题）。可以发现，越靠近极值点，二次函数的一阶导数的绝对值越小（绝对值递减）。病态矩阵：求解方程组时如果对数据进行较小的扰动，则得出的结果具有很大波动，这样的矩阵称为病态矩阵。最小二乘法：又称最小平方法，通过最小化误差函数的平方和，寻找最优解。的情况下，实际函数的减小值总是小于近似函数的减小值。

2024-11-08 21:59:23 1338

原创矩阵求导小记

统一使用小写字母x，小写粗体x，大写粗体X分别表示标量，向量，矩阵。其中向量默认为列向量。f。返回值（函数值）是一个实数（标量）。多个标量函数构成的向量，就称为向量函数。函数值为向量。Ff11⋮fm1⋯⋱⋯f1n⋮fmnm×n由多个标量函数构成的矩阵，称为矩阵函数，函数值为矩阵。

2024-11-06 22:33:25 912

原创论文笔记 TDANet: An efficient encoder-decoder architecture with top-down attention for speech separation

我一直知道是自己的问题，但我会尝试挽留，然后失败，被推开或者主动推开，然后在另一个地方再重复这些事情。或许有一天会不再这样，但也已经不知道在哪些地方重复过多少遍了，也不知道是改变了，还是终于找到了一个适合我的地方，也不知道这个适合我的地方，是真的适合我还是我以为很适合我。让我像蒲公英一样，吹散我，但不必管我。

2024-11-02 11:31:27 746 1

原创论文笔记 NeurIPS-2021-chip-channel-independence-based-pruning-for-compact-neural-networks-Paper

现有的通道剪枝方法大多都是基于通道本身的信息进行剪枝操作，而本文从跨通道的角度，基于channel independence（以下均用作为简称）通道独立性进行剪枝。CI用于衡量不同特征图之间的相关性，相关性可以视为通道之间的冗余度。比如，某一个通道的CI指标越高，则该通道与其他通道之间的冗余信息更少，更应该保留。反之CI指标越低，则该通道的信息可以理解为，具有冗余的信息，因此通道剪枝时应当优先剪除这些CI较低的通道。

2024-10-28 22:28:05 1140 1

原创论文笔记 A novel channel pruning method for deep neural network compression

对一个预训练的CNN网络，根据每一层的敏感度，确定压缩比，使用遗传算法的搜索需要保留的通道，逐层进行剪枝对已修剪的每一个卷积层，采用基于知识蒸馏的框架进行微调。通道选择问题实际上可以转化为搜索问题，即搜索需要剪去的通道，这些通道。可以用遗传算法来解决。设计了一种two-step approximation fitness function以提升遗传算法的速度。

2024-10-27 20:00:51 1825 1

原创论文笔记 Dynamic Sparse Training Find Efficient Sparse Network From Scratch With Trainable Masked Layers

有些鸟儿天生就是关不住的，它们的羽毛太鲜明，歌声太甜美、也太狂野了，所以你只能放它们走，否则哪天你打开笼子喂它们时，它们也会想办法扬长而去。

2024-10-26 16:06:03 886 1

原创论文笔记 Dynamic Network Pruning with Interpretable Layerwise Channel Selection

Channel Selection Masks 当中有m个masks。经过Action Head输出对这m个masks的概率分布，取概率最大的mask，即。，作用于卷积层，只激活权值非零的卷积核。这里采用了L1正则化，其中G_i应该对应每一层所使用的mask，为L个卷积层的Action Heads与对应的Masks。为Action Head，输出m个通道的概率。是正则化项，用于保证mask的稀疏性。个卷积层的参数，conv为卷积操作。为该决策单元中masks的集合。就是概率最大的mask的索引）。

2024-10-20 19:48:19 875 1

原创论文笔记 Channel Pruning for Accelerating Very Deep Neural Networks

如图三右侧所示，Y2Y1Y_2, Y_1Y2Y1分别为剪枝前residual branch，shortcut branch输出的特征图，Y′Y'Y′表示为剪枝后的特征图，因为shortcut没有参数，不能根据eq1重建输出特征图，因此将优化目标从Y2Y_2Y2改为Y2Y1−Y1′Y2Y1−Y1′，相当于额外弥补了剪枝后shortcut branch损失的通道信息。

2024-10-19 20:09:38 817 1

原创论文笔记 Cross-Image Relational Knowledge Distillation for Semantic Segmentation

直接套用classification-based KD用于语义分割任务的效果并不理想，因为直接对特征图进行匹配忽视了像素点间的关系（本文采用的是pixel embedding）。但之前的方法都是针对单幅输入图像，得到Knowledge，然后让Student通过学习知识模仿Teacher的结构，忽视了不同图像的像素间的语义关系，如Figure 8.对于mini-batch的每幅图像，仅从同一类别的像素中，随机选取少量的pixel embeddings（如。核心思想是在整个训练图像集合中构建全局的像素间关系。

2024-10-04 16:26:46 1076 1

原创论文笔记 Hierarchical Self-supervised Augmented Knowledge Distillation

基于自监督对比知识的蒸馏方法（SSKD[1]）在近期达到了state of art，但可能破坏原始分类任务中对特征的学习，因此作者提出“自监督增强任务”。指导网络同时学习原始分类任务的分布，与自监督辅助任务的分布（joint distribution of the original recognition task and self-supervised auxiliary task）。

2024-10-03 15:46:46 833 1

原创论文阅读 Audio-Visual Temporal Binding for Egocentric Action Recognition

TSN的时间聚合：对每个模态而言，选取多个segments，针对每个segments做预测，得到预测分数，然后求均值。为避免TBW过长/过短，导致捕捉的动作速度过快/过慢，作者设置时间窗口宽度b随action的时长（速度）而变化。在每个时间步内也可以做多模态融合，如[10]。在每个时间步中，在时间上同步各个模态，融合特征，最后预测。：多模态融合函数，TBN对应模型结构为mid-fusion层，TSN对应为最后的联合预测。做特征提取，时间聚合，最后联合每个模态的预测结果。：第1，2模态的特征提取函数。

2024-09-16 21:37:22 911 1

原创论文阅读 CROSS-MODAL KNOWLEDGE DISTILLATION FOR ACTION RECOGNITION

Teacher和student处于不同模态，不同的网络架构时，使用KL-loss对蒸馏温度T\mathcal TT的选择十分敏感，效果相比cross-entropy也较差。但是对于多个学生网络，网络模型一样，模态一样，对T\mathcal TT的选择不敏感，因此可以使用KL-loss。

2024-09-15 20:22:45 818 1

原创图像分割算法——Normalized Cuts（Ncuts）算法的简单理解

最近在做毕业设计，看文献综述时查了一些资料，打算在CSDN上对现有的图像分割方法做一些简单的笔记：首先需要介绍的是，该算法是一种基于图论的算法：将图像整幅图像映射为一幅带权值的无向图G=(V, E)，V为点集，E为边集。图像中的像素点视为图中的顶点，像素点之间相邻关系表示为图中的边，像素点间的相似性或差异性为边的权值。基于图论的算法主要思想是：将图像分割问题，转化为图论中图的划分问题，从而求解。下面具体说一说Normalized Cuts算法（Ncuts）。该算法的创作者Wu等人根据图

2021-12-29 20:46:10 10076 2