Tahy-CSDN博客

原创最优传输问题

最优传输问题Transport Polytope、可解释为联合概率的集合rrr和ccc之间的最优传输Transport Polytope、可解释为联合概率的集合使用⟨⋅,⋅⟩\lang \cdot , \cdot \rang⟨⋅,⋅⟩代表Frobenius点积。对于∑d:={x∈R+d:xT1d=1}\sum_d:=\{x\in\R^d_+:x^T1_d=1\}∑d:={x∈R+d:xT1d=1}中的两个概率向量rrr和ccc，将U(r,c)U(r,c)U(r,c)记为rrr和ccc的transp

2022-04-23 21:27:57 571

原创 End-to-end Audio-visual Speech Recognition with Conformers

简介提出了可端到端训练的音视语音识别模型，输入waveform和唇部的每一帧，音视各通过一个conformer encoder后concat并FC得到融合特征，最后是transformer decoder。端到端训练比分开训练好；当信噪比较低时，waveform比fbank效果好论文的任务/贡献提出了端到端的音视语音识别模型，从waveform和图像接受收入进行训练。所提方法网络结构包含front-end、back-end和fusion modules。Front-end：视觉使用了将第一

2021-12-16 20:43:53 2788 3

原创 Multi-modal Transformer for Video Retrieval

简介使用多模态transformer融合了来自视频的多种模态（视觉、声音、语音）特征、专家序号、时间编码，得到各个模态的video表征，再计算由BERT、Gated embedding modules输出的Caption words的表征，最后计算caption和video表征的相似度论文的任务/贡献1.提出用于检索的视频编码器体系结构：多模态transformer处理在不同时间提取的多模态特征2.研究了不同的语言embedding体系结构，BERT最好。3.效果好。所提方法通过学习一个函数

2021-12-07 15:41:05 1717

原创 Deep Audio-visual Speech Recognition

简介使用唇部图像、音频进行音视融合语音识别任务。其中图像使用了3D卷积提取的特征，语音使用了语谱图。使用了相同的transformer encoder，decoder方面比较了seq2seq和CTC两种方案，结果显示在无噪音情况下seq2seq表现更佳，有噪音时CTC表现更佳。使用额外的语言模型也有助于提升WER论文的任务/贡献(1)比较了使用Connectionist Temporal Classification(CTC)损失和使用序列对序列(seq2seq)损失的两种唇读模型。这两个模型都建立在

2021-12-07 15:20:10 707

原创 Audio-Visual Speech Recognition is Worth 32×32×8 Voxels

简介使用了类似于ViT的思想将视频沿T,H,W方向切割为若干小块并送入Transformer中。音频使用FBank，但将三个时间步的向量合并为一个（即一秒有33.3个声学特征），视频帧也采样到33.3Hz。最后的效果是ASR任务下Transformer在噪声强时效果较好，唇读任务下较好，但是弱噪声和说话声重叠时效果不好。论文的任务/贡献设计并使用纯transformer的方法在唇读、音视语音识别任务上提取视觉特征所提方法网络结构视觉前端：1.baseline:在“Recurrent neur

2021-12-07 15:09:45 252

原创 The Sound of Pixels

简介提出了一种声音分离网络，对视觉特征应用了空间最大池化，与声音特征进行点乘融合，以二值或软掩膜作为监督信号。每个音频有对应的视觉响应。收集了MUSIC数据集。所提方法网络结构视频分析网络：使用ResNet-18作为骨干，提取T×(H/16)×(W/16)×K，使用了时间池化。音频分析网络：对数声谱图，用U-Net作为骨干。==为何用对数声谱图？==对于诸如乐器等的谐波具有平移不变性（其基频和高阶谐波随着音高的变化在对数频率尺度上平移）合成网络：帧特征和声音特征同时输入，为视觉特征乘以一个可学

2021-11-12 16:54:32 3369

原创如何利用Proxifier使所有程序都能爬山

一般而言，使用红飞机仅能在浏览网页时爬山，如果要让所有程序，如git，python等程序爬山，则需要用到Proxifier这个程序。Proxifier官网为https://www.proxifier.com/安装的时候，注册名可以随便写，注册码为 5EZ8G-C3WL5-B56YG-SCXM9-6QZAP在使用proxifier以前要先打开红飞机，随后打开proxifier单击左侧 Add按钮使用如下设置显示测试成功即可。此时点击OK确认。隔一会儿后程序会提示你Infinite Co

2021-11-04 23:06:52 1682

原创 Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

简介提出了一种无监督两阶段发声物体定位结构的网络，以音视一致（分类）作为监督信号，使用合成的训练集训练分类网络。第一阶段训练网络，使之输出“认出”发声物体的掩膜，结合掩膜，使用K-means聚类得到N个类别（已知，由数据集确定）的视觉表征，存为字典，同时训练单模态音视特征分类网络；第二阶段延续第一阶段的参数，利用字典得到视觉特征图上各类别的响应激活图，结合第一阶段的发声物体掩膜得到各发声物体特征，最后使用K-L散度缩小发声物体特征与音频分类特征（音频特征+FC）的分布差异。使用融合了发声物体掩膜的各类别掩

2021-11-04 22:33:20 1616

原创 Curriculum Audiovisual Learning

简介进一步改进了音视特征聚类网络。目标函数为样本与聚类中心的加权距离之和（与之前类似），权重仍为距离的softmax，距离度量标准换成了L2；针对无法预知声源数目的情形，根据泊松分布，提出了声音分离损失，能够根据音频预测声源数目。聚类损失换成了contrastive损失。在ESC-50声音场景分类、SoundNet-Flickr声音定位、MIT-MUSIC声音分离任务上表现较好。贡献1.开发了一个视听学习模型，能够输出单模态表征，音视对齐。将软聚类模块作为模式检测器，在两种模态共享空间中，通过结构化对

2021-10-27 20:24:44 266

翻译翻译：Deep Multimodal Clustering for Unsupervised Audiovisual Learning

摘要鸟儿的鸣叫声，奔跑的汽车伴随着的噪音等等，这些自然的音视关联（一致）提供了探索和了解外部世界的可能性。然而，混合的多个对象和声音使得在不受约束的环境中执行有效匹配变得困难。为了解决这一问题，我们提出充分挖掘音视成分，并在它们之间进行精心的一致学习。具体地说，提出了一种新的无监督音视学习模型，称为深度多模态聚类(DMC)，该模型利用不同共享空间中卷积映射的多模态向量同步进行聚类，以获取多个音视组合关系。并且这种集成的多模态聚类网络能够以端到端的方式在具有max-margin损失的情况下被有效地训练。在特

2021-10-26 15:40:13 447

原创 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

简介提出深度多模态聚类方法，提出一种聚类方法，使用视听一致数据集，通过优化max-margin损失来将为每个音视样本划分类别，并得出簇的中心。聚类的中间变量是一个热力图，可以观察到网络关注的位置。为音视频度量余弦相似度可以确定两者的相互关系。论文的任务为音视特征聚类，以分类准确率作为指标分析音视频特征聚类效果；使用热力图进行声源定位任务；可视化音频和对应声谱图，试图理解其相关性。网络结构视觉子网使用VGG16，音频子网使用VGGish。深度多模态聚类(DMC)输入：每个模态的特征向量：{u

2021-10-25 20:48:40 382

原创 PyTorch中dim的含义

在对张量操作的过程中，dim的含义尤为重要，参考了两篇博客的讲解，现梳理如下视作对某个维度操作假设定义了某张量aa = torch.tensor([[1,4],[3,2]])很容易看出它的形状是2×2的，即有两个维度：第零个维度包含[1,4], [3,2]两个tensor，第一个维度包含了4个（两对）标量。若想沿某个维度找到最大值，则执行torch.max(a, dim)若令dim=0，则是从第零个维度中找到最大值。tensor([[1, 4], [3, 2]])张量

2021-10-20 18:15:51 491

原创 Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications

简介提出一种无监督算法来解决视觉场景中声源的定位问题。提出带有注意力的双流结构网络，收集了新数据集。由于无监督方法会产生错误，因此将上述方法扩充为有监督和半监督方法。未考虑运动的情况。贡献（1）介绍了一种学习框架，利用声音信息引导的注意力机制，从配对的声音和视频帧中定位声源。声源定位可以与给定的声音输入交互。（2）提出了一个统一的端到端深度卷积神经网络结构，它适应了无监督、半监督和全监督学习。（3）收集并标注了一个新的声源定位数据集，它提供了有监督的信息，便于定量和定性分析。（4）定量和定性地证

2021-10-20 11:01:03 479 2

原创 CSDN默认样板

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-10-19 22:02:13 94

原创 The Right to Talk: An Audio-Visual Transformer Approach

The Right to Talk: An Audio-Visual Transformer Approach论文简介论文的任务轮流发言任务简介符号表示论文简介提出“轮流发言”概念，利用音视Transformer完成语音分离并找到主要说话人的位置，使用了无监督训练，使用Gromov-Wasserstein距离来为音-视对齐，使用Hadamard乘法计算audio损失论文的任务（1）定位主要的发言人（2）打断者音源或背景噪声消除（3）当说话者转换角色时，自动切换到新的话题轮流发言任务简介一段

2021-10-15 18:12:59 967 1

原创 mmdetection中Faster RCNN默认使用4层FPN

mmdetection中Faster RCNN默认使用4层FPN，即P2~P5。根据配置文件，还会通过最大池化生成P6，但是并不使用P6层。依据：mmdetection/mmdet/models/roi_heads/standard_roi_head.py文件中_bbox_forward函数bbox_feats = self.bbox_roi_extractor(x[:self.bbox_roi_extractor.num_inputs], rois)其中的self.bbox_roi_extractor

2020-09-25 22:21:12 1013

原创 RetinaNet

网络架构：基于Resnet的FPN网络，具有P3~P7五个尺寸的特征映射，步幅分别从23~27 具有Heads结构，有两个分支，即从Pi结构出来后： 4个卷积层后是分类分支：一个3×3的卷积层，有KA个卷积核，对应K个类别，A个锚框。使用了K个二分类器，sigmoid激活函数 4个卷积层后是回归分支：从为这A个锚框计算offsets，与RCNN一致锚框的设置：在三个纵横比{1:2...

2020-08-28 15:33:13 326

翻译通过自适应训练样本选择来弥补基于锚的检测和无锚检测之间的差距

通过自适应训练样本选择来弥补基于锚的检测和无锚检测之间的差距摘要1. 介绍2. 相关工作2.1. 基于锚的检测器2.2. 无锚检测器3. 基于锚和无锚检测的差异性分析3.1. 实验设置3.2. 去除不一致性3.3. 本质区别4. 自适应训练样本选择算法4.1. 描述4.2. 验证4.3. 分析4.4. 对比4.5. 讨论5. 结论功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建

2020-08-17 09:45:07 2011

翻译 DANet核心内容翻译

双注意力机制：位置注意力模块：使用自监督机制捕获特征映射任意两个位置之间的空间依赖。对于特定位置的特征，通过加权求和聚合所有位置的特征来更新，权重由相应两个位置之间的特征相似性决定。任意两个具有相似特征的位置可以互相提升，不管距离多远。通道注意力模块。：捕获任意两个通道间的依赖，对所有通道映射加权求和来更新每个通道映射ResNet把特征图缩小到原来的1/8，之后进行如下处理：生成空间注意力矩阵，其为特征的任意两个像素之间的空间关系建模注意力矩阵和原始特征相乘。将如上矩阵相乘的结果矩阵与原始特征

2020-08-12 14:45:49 1188 2

原创快速排序方法及代码

快速排序原理原理这是一个利用递归排序的算法。给我一组序列（未必是数组，也可以是链表），首先要知道其长度。定义一个函数，输入参数要包括待排序的序列指针，子序列起始元素索引low，终止元素索引high。1.将起始元素存于临时变量tmp中。2.将起始元素索引，终止元素索引存为临时变量head和rear，便于递归时调用。3.(!!!)low和high如果已经重合，或low已大于high，则停止递归。3.终止元素索引high指向的元素，是否比tmp大？如果大，则向左移动一位如果小，不仅不移动，还要

2020-08-12 14:37:10 222

a404NotFound的博客