自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Fisher矩阵和Hessian矩阵的关系:证明Fisher为负对数似然函数的Hessian的期望

fθ​⋅: 概率密度px∣θpθ​xi∏N​fθ​⋅: 似然函数sθ∇θ​fθ​⋅: score function,即似然函数的梯度。IEpθ​x​[(∇θ​logpθ​x))∇θ​logpθ​xT: Fisher矩阵。

2024-11-15 12:40:30 488

原创 论文笔记 SuDORMRF:EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION

相比于常规卷积,可以减少参数和计算量。1×1我们以input feature map shape为12123∈RH×W×C,卷积核shape为553∈Rkh​×kw​×C, stride = 1, padding = 0,卷积核数量为256(输出通道数为256),output feature map shape为[8,8,256]的情况为例。

2024-11-13 20:39:04 580

原创 论文笔记 A-FRCNN: speech-separation-using-an-asynchronous-fully-recurrent-convolutional-neural-network

xi1∑C​si​σ1其中x∈R1×T为混合音频信号,si​∈R1×T为第i个说话人的音频信号,σ∈R1×T为噪声。T为信号长度,C为说话人数量。总体pipeline如figure 2所示:Encoder将输入x分成K个语音分段xk​∈R1×L,将每个语音分段转化为特征向量rk​∈R1×Lrk​xk​Uе​2其中Uе​为权重矩阵。Encoder可以通过一维卷积实现。

2024-11-10 10:30:27 776 1

原创 Levenberg-Marquardt算法(LM)的前世今生

这就是反向传播当中最初的梯度下降方法,由此往后衍生出momentum,adagrad,adam等。假设目标函数为凸函数(随后的几种方法也是利用了最小二乘法,假设目标函数为开口朝上的二次函数,属于凸优化问题)。可以发现,越靠近极值点,二次函数的一阶导数的绝对值越小(绝对值递减)。病态矩阵:求解方程组时如果对数据进行较小的扰动,则得出的结果具有很大波动,这样的矩阵称为病态矩阵。最小二乘法:又称最小平方法,通过最小化误差函数的平方和,寻找最优解。的情况下,实际函数的减小值总是小于近似函数的减小值。

2024-11-08 21:59:23 864

原创 矩阵求导小记

统一使用小写字母x,小写粗体x,大写粗体X分别表示标量,向量,矩阵。其中向量默认为列向量。f。返回值(函数值)是一个实数(标量)。多个标量函数构成的向量,就称为向量函数。函数值为向量。F​f11​⋮fm1​​⋯⋱⋯​f1n​⋮fmn​​​m×n​由多个标量函数构成的矩阵,称为矩阵函数,函数值为矩阵。

2024-11-06 22:33:25 858

原创 论文笔记 TDANet: An efficient encoder-decoder architecture with top-down attention for speech separation

我一直知道是自己的问题,但我会尝试挽留,然后失败,被推开或者主动推开,然后在另一个地方再重复这些事情。或许有一天会不再这样,但也已经不知道在哪些地方重复过多少遍了,也不知道是改变了,还是终于找到了一个适合我的地方,也不知道这个适合我的地方,是真的适合我还是我以为很适合我。让我像蒲公英一样,吹散我,但不必管我。

2024-11-02 11:31:27 588

原创 论文笔记 NeurIPS-2021-chip-channel-independence-based-pruning-for-compact-neural-networks-Paper

现有的通道剪枝方法大多都是基于通道本身的信息进行剪枝操作,而本文从跨通道的角度,基于channel independence(以下均用作为简称)通道独立性进行剪枝。CI用于衡量不同特征图之间的相关性,相关性可以视为通道之间的冗余度。比如,某一个通道的CI指标越高,则该通道与其他通道之间的冗余信息更少,更应该保留。反之CI指标越低,则该通道的信息可以理解为,具有冗余的信息,因此通道剪枝时应当优先剪除这些CI较低的通道。

2024-10-28 22:28:05 999

原创 论文笔记 A novel channel pruning method for deep neural network compression

对一个预训练的CNN网络,根据每一层的敏感度,确定压缩比,使用遗传算法的搜索需要保留的通道,逐层进行剪枝对已修剪的每一个卷积层,采用基于知识蒸馏的框架进行微调。通道选择问题实际上可以转化为搜索问题,即搜索需要剪去的通道,这些通道。可以用遗传算法来解决。设计了一种two-step approximation fitness function以提升遗传算法的速度。

2024-10-27 20:00:51 999 1

原创 论文笔记 Dynamic Sparse Training Find Efficient Sparse Network From Scratch With Trainable Masked Layers

有些鸟儿天生就是关不住的,它们的羽毛太鲜明,歌声太甜美、也太狂野了,所以你只能放它们走,否则哪天你打开笼子喂它们时,它们也会想办法扬长而去。

2024-10-26 16:06:03 786

原创 论文笔记 Dynamic Network Pruning with Interpretable Layerwise Channel Selection

Channel Selection Masks 当中有m个masks。经过Action Head输出对这m个masks的概率分布,取概率最大的mask,即。,作用于卷积层,只激活权值非零的卷积核。这里采用了L1正则化,其中G_i应该对应每一层所使用的mask,为L个卷积层的Action Heads与对应的Masks。为Action Head,输出m个通道的概率。是正则化项,用于保证mask的稀疏性。个卷积层的参数,conv为卷积操作。为该决策单元中masks的集合。就是概率最大的mask的索引)。

2024-10-20 19:48:19 816

原创 论文笔记 Channel Pruning for Accelerating Very Deep Neural Networks

如图三右侧所示,Y2Y1Y_2, Y_1Y2​Y1​分别为剪枝前residual branch,shortcut branch输出的特征图,Y′Y'Y′表示为剪枝后的特征图,因为shortcut没有参数,不能根据eq1重建输出特征图,因此将优化目标从Y2Y_2Y2​改为Y2Y1−Y1′Y2​Y1​−Y1′​,相当于额外弥补了剪枝后shortcut branch损失的通道信息。

2024-10-19 20:09:38 709

原创 论文笔记 Cross-Image Relational Knowledge Distillation for Semantic Segmentation

直接套用classification-based KD用于语义分割任务的效果并不理想,因为直接对特征图进行匹配忽视了像素点间的关系(本文采用的是pixel embedding)。但之前的方法都是针对单幅输入图像,得到Knowledge,然后让Student通过学习知识模仿Teacher的结构,忽视了不同图像的像素间的语义关系,如Figure 8.对于mini-batch的每幅图像,仅从同一类别的像素中,随机选取少量的pixel embeddings(如。核心思想是在整个训练图像集合中构建全局的像素间关系。

2024-10-04 16:26:46 946

原创 论文笔记 Hierarchical Self-supervised Augmented Knowledge Distillation

基于自监督对比知识的蒸馏方法(SSKD[1])在近期达到了state of art,但可能破坏原始分类任务中对特征的学习,因此作者提出“自监督增强任务”。指导网络同时学习原始分类任务的分布,与自监督辅助任务的分布(joint distribution of the original recognition task and self-supervised auxiliary task)。

2024-10-03 15:46:46 766

原创 论文阅读 Audio-Visual Temporal Binding for Egocentric Action Recognition

TSN的时间聚合:对每个模态而言,选取多个segments,针对每个segments做预测,得到预测分数,然后求均值。为避免TBW过长/过短,导致捕捉的动作速度过快/过慢,作者设置时间窗口宽度b随action的时长(速度)而变化。在每个时间步内也可以做多模态融合,如[10]。在每个时间步中,在时间上同步各个模态,融合特征,最后预测。:多模态融合函数,TBN对应模型结构为mid-fusion层,TSN对应为最后的联合预测。做特征提取,时间聚合,最后联合每个模态的预测结果。:第1,2模态的特征提取函数。

2024-09-16 21:37:22 823

原创 论文阅读 CROSS-MODAL KNOWLEDGE DISTILLATION FOR ACTION RECOGNITION

Teacher和student处于不同模态,不同的网络架构时,使用KL-loss对蒸馏温度T\mathcal TT的选择十分敏感,效果相比cross-entropy也较差。但是对于多个学生网络,网络模型一样,模态一样,对T\mathcal TT的选择不敏感,因此可以使用KL-loss。

2024-09-15 20:22:45 733

原创 图像分割算法——Normalized Cuts(Ncuts) 算法的简单理解

​最近在做毕业设计,看文献综述时查了一些资料,打算在CSDN上对现有的图像分割方法做一些简单的笔记:首先需要介绍的是,该算法是一种基于图论的算法:将图像整幅图像映射为一幅带权值的无向图G=(V, E),V为点集,E为边集。图像中的像素点视为图中的顶点,像素点之间相邻关系表示为图中的边,像素点间的相似性或差异性为边的权值。基于图论的算法主要思想是:将图像分割问题,转化为图论中图的划分问题,从而求解。下面具体说一说Normalized Cuts算法(Ncuts)。该算法的创作者Wu等人根据图

2021-12-29 20:46:10 8167 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除