自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 linear/ridge/kernel regression中representer theory的证明 & 对gradient descent中implicit regularization的解释

使用大写字母XXX表示矩阵(向量),小写加粗字母表示列向量x\mathbf{x}x,小写字母表示标量xxx。X∈Rn×pX∈Rn×p其中n为样本数,p为特征数。Y∈Rn×1Y∈Rn×1β∈Rp×1β∈Rp×1:模型参数。In∈Rn×nIn​∈Rn×n:单位矩阵。xi∈Rp×1xi​∈Rp×1:第iii个样本。注:矩阵求导一致采用分母布局。YXβYX。

2025-02-16 23:08:13 981

原创 [论文阅读] Knowledge Fusion of Large Language Models

整体Pipeline如下图所示不同的动物代表不同的LLM。左边第一,第二分别是是Ensemble以及Weight Merging方法。最右侧为本文提出的FuseLLM。

2025-02-07 22:01:59 1109 1

原创 论文阅读 Multi-view Classification Using Hybrid Fusion and Mutual Distillation

送入Transformer中。其中单个视角分别送入各自的Transformer,输出单一视角预测;多个视角特征融合,送入一个Transformer,输出多视角预测。N个视角的输入图像,对应N+1个Transformer。为第一个视角的输入样本。转为Token形式,以便之后送入Transformer:首先将空间维度。为prediction vector。表示Transformer。

2025-01-22 15:09:55 911 1

原创 autodl安装对应版本的cuda

使用如下命令搜索可用的cudatoolkit版本。随后使用conda安装。

2025-01-18 12:07:22 841

原创 论文笔记 SliceGPT: Compress Large Language Models By Deleting Rows And Columns

的后面)

2024-11-25 22:54:46 2143 1

原创 Transformer架构笔记

N6LayerNormxSubLayerx))x: SliceGPT如何解决各层hidden dimension一致的问题?:同样为6个Block。有两个多头注意力子层,一个FNN子层。且使用自回归的方式:t时刻Decoder的输入,为。为什么用LN而不是BN?BN针对特征做归一化,LN则针对样本。LN在机器翻译中会用的更多,主要是因为输入序列的长度通常不一致。(在训练中,使用zero padding来解决输入长度不一致的问题)。

2024-11-24 00:05:25 966

原创 autodl平台运行slowfast 代码笔记

将两者拼接得到[2304],然后经过FC层[2304,80],sigmoid,输出label概率。将两者拼接得到[2304],然后经过FC层[2304,80],sigmoid,输出label概率。的含义,是指中间帧。比如fast pathway,一次性要处理的是32帧,我们实际上将。取出来作为label,而不是用所有的frames的所有boxes的labels。代表slow与fast streams通道数之比。-> s_pool:7*7的池化,得到。t_pool:平均池化,时间轴化为1。

2024-11-17 16:09:44 1024

原创 Fisher矩阵和Hessian矩阵的关系:证明Fisher为负对数似然函数的Hessian的期望

fθ​⋅: 概率密度px∣θpθ​xi∏N​fθ​⋅: 似然函数sθ∇θ​fθ​⋅: score function,即似然函数的梯度。IEpθ​x​[(∇θ​logpθ​x))∇θ​logpθ​xT: Fisher矩阵。

2024-11-15 12:40:30 1087

原创 论文笔记 SuDORMRF:EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION

相比于常规卷积,可以减少参数和计算量。1×1我们以input feature map shape为12123∈RH×W×C,卷积核shape为553∈Rkh​×kw​×C, stride = 1, padding = 0,卷积核数量为256(输出通道数为256),output feature map shape为[8,8,256]的情况为例。

2024-11-13 20:39:04 892 1

原创 论文笔记 A-FRCNN: speech-separation-using-an-asynchronous-fully-recurrent-convolutional-neural-network

xi1∑C​si​σ1其中x∈R1×T为混合音频信号,si​∈R1×T为第i个说话人的音频信号,σ∈R1×T为噪声。T为信号长度,C为说话人数量。总体pipeline如figure 2所示:Encoder将输入x分成K个语音分段xk​∈R1×L,将每个语音分段转化为特征向量rk​∈R1×Lrk​xk​Uе​2其中Uе​为权重矩阵。Encoder可以通过一维卷积实现。

2024-11-10 10:30:27 890 1

原创 Levenberg-Marquardt算法(LM)的前世今生

这就是反向传播当中最初的梯度下降方法,由此往后衍生出momentum,adagrad,adam等。假设目标函数为凸函数(随后的几种方法也是利用了最小二乘法,假设目标函数为开口朝上的二次函数,属于凸优化问题)。可以发现,越靠近极值点,二次函数的一阶导数的绝对值越小(绝对值递减)。病态矩阵:求解方程组时如果对数据进行较小的扰动,则得出的结果具有很大波动,这样的矩阵称为病态矩阵。最小二乘法:又称最小平方法,通过最小化误差函数的平方和,寻找最优解。的情况下,实际函数的减小值总是小于近似函数的减小值。

2024-11-08 21:59:23 1338

原创 矩阵求导小记

统一使用小写字母x,小写粗体x,大写粗体X分别表示标量,向量,矩阵。其中向量默认为列向量。f。返回值(函数值)是一个实数(标量)。多个标量函数构成的向量,就称为向量函数。函数值为向量。F​f11​⋮fm1​​⋯⋱⋯​f1n​⋮fmn​​​m×n​由多个标量函数构成的矩阵,称为矩阵函数,函数值为矩阵。

2024-11-06 22:33:25 912

原创 论文笔记 TDANet: An efficient encoder-decoder architecture with top-down attention for speech separation

我一直知道是自己的问题,但我会尝试挽留,然后失败,被推开或者主动推开,然后在另一个地方再重复这些事情。或许有一天会不再这样,但也已经不知道在哪些地方重复过多少遍了,也不知道是改变了,还是终于找到了一个适合我的地方,也不知道这个适合我的地方,是真的适合我还是我以为很适合我。让我像蒲公英一样,吹散我,但不必管我。

2024-11-02 11:31:27 746 1

原创 论文笔记 NeurIPS-2021-chip-channel-independence-based-pruning-for-compact-neural-networks-Paper

现有的通道剪枝方法大多都是基于通道本身的信息进行剪枝操作,而本文从跨通道的角度,基于channel independence(以下均用作为简称)通道独立性进行剪枝。CI用于衡量不同特征图之间的相关性,相关性可以视为通道之间的冗余度。比如,某一个通道的CI指标越高,则该通道与其他通道之间的冗余信息更少,更应该保留。反之CI指标越低,则该通道的信息可以理解为,具有冗余的信息,因此通道剪枝时应当优先剪除这些CI较低的通道。

2024-10-28 22:28:05 1140 1

原创 论文笔记 A novel channel pruning method for deep neural network compression

对一个预训练的CNN网络,根据每一层的敏感度,确定压缩比,使用遗传算法的搜索需要保留的通道,逐层进行剪枝对已修剪的每一个卷积层,采用基于知识蒸馏的框架进行微调。通道选择问题实际上可以转化为搜索问题,即搜索需要剪去的通道,这些通道。可以用遗传算法来解决。设计了一种two-step approximation fitness function以提升遗传算法的速度。

2024-10-27 20:00:51 1825 1

原创 论文笔记 Dynamic Sparse Training Find Efficient Sparse Network From Scratch With Trainable Masked Layers

有些鸟儿天生就是关不住的,它们的羽毛太鲜明,歌声太甜美、也太狂野了,所以你只能放它们走,否则哪天你打开笼子喂它们时,它们也会想办法扬长而去。

2024-10-26 16:06:03 886 1

原创 论文笔记 Dynamic Network Pruning with Interpretable Layerwise Channel Selection

Channel Selection Masks 当中有m个masks。经过Action Head输出对这m个masks的概率分布,取概率最大的mask,即。,作用于卷积层,只激活权值非零的卷积核。这里采用了L1正则化,其中G_i应该对应每一层所使用的mask,为L个卷积层的Action Heads与对应的Masks。为Action Head,输出m个通道的概率。是正则化项,用于保证mask的稀疏性。个卷积层的参数,conv为卷积操作。为该决策单元中masks的集合。就是概率最大的mask的索引)。

2024-10-20 19:48:19 875 1

原创 论文笔记 Channel Pruning for Accelerating Very Deep Neural Networks

如图三右侧所示,Y2Y1Y_2, Y_1Y2​Y1​分别为剪枝前residual branch,shortcut branch输出的特征图,Y′Y'Y′表示为剪枝后的特征图,因为shortcut没有参数,不能根据eq1重建输出特征图,因此将优化目标从Y2Y_2Y2​改为Y2Y1−Y1′Y2​Y1​−Y1′​,相当于额外弥补了剪枝后shortcut branch损失的通道信息。

2024-10-19 20:09:38 817 1

原创 论文笔记 Cross-Image Relational Knowledge Distillation for Semantic Segmentation

直接套用classification-based KD用于语义分割任务的效果并不理想,因为直接对特征图进行匹配忽视了像素点间的关系(本文采用的是pixel embedding)。但之前的方法都是针对单幅输入图像,得到Knowledge,然后让Student通过学习知识模仿Teacher的结构,忽视了不同图像的像素间的语义关系,如Figure 8.对于mini-batch的每幅图像,仅从同一类别的像素中,随机选取少量的pixel embeddings(如。核心思想是在整个训练图像集合中构建全局的像素间关系。

2024-10-04 16:26:46 1076 1

原创 论文笔记 Hierarchical Self-supervised Augmented Knowledge Distillation

基于自监督对比知识的蒸馏方法(SSKD[1])在近期达到了state of art,但可能破坏原始分类任务中对特征的学习,因此作者提出“自监督增强任务”。指导网络同时学习原始分类任务的分布,与自监督辅助任务的分布(joint distribution of the original recognition task and self-supervised auxiliary task)。

2024-10-03 15:46:46 833 1

原创 论文阅读 Audio-Visual Temporal Binding for Egocentric Action Recognition

TSN的时间聚合:对每个模态而言,选取多个segments,针对每个segments做预测,得到预测分数,然后求均值。为避免TBW过长/过短,导致捕捉的动作速度过快/过慢,作者设置时间窗口宽度b随action的时长(速度)而变化。在每个时间步内也可以做多模态融合,如[10]。在每个时间步中,在时间上同步各个模态,融合特征,最后预测。:多模态融合函数,TBN对应模型结构为mid-fusion层,TSN对应为最后的联合预测。做特征提取,时间聚合,最后联合每个模态的预测结果。:第1,2模态的特征提取函数。

2024-09-16 21:37:22 911 1

原创 论文阅读 CROSS-MODAL KNOWLEDGE DISTILLATION FOR ACTION RECOGNITION

Teacher和student处于不同模态,不同的网络架构时,使用KL-loss对蒸馏温度T\mathcal TT的选择十分敏感,效果相比cross-entropy也较差。但是对于多个学生网络,网络模型一样,模态一样,对T\mathcal TT的选择不敏感,因此可以使用KL-loss。

2024-09-15 20:22:45 818 1

原创 图像分割算法——Normalized Cuts(Ncuts) 算法的简单理解

​最近在做毕业设计,看文献综述时查了一些资料,打算在CSDN上对现有的图像分割方法做一些简单的笔记:首先需要介绍的是,该算法是一种基于图论的算法:将图像整幅图像映射为一幅带权值的无向图G=(V, E),V为点集,E为边集。图像中的像素点视为图中的顶点,像素点之间相邻关系表示为图中的边,像素点间的相似性或差异性为边的权值。基于图论的算法主要思想是:将图像分割问题,转化为图论中图的划分问题,从而求解。下面具体说一说Normalized Cuts算法(Ncuts)。该算法的创作者Wu等人根据图

2021-12-29 20:46:10 10076 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除