论文笔记
文章平均质量分 93
KiraFenvy
中大研究生一枚
展开
-
【Paper Note】伪造片段及方法分割Spoof Diarization: “What Spoofed When” in Partially Spoofed Audio
任务目标的差异Spoof检测:目标是判断整个音频信号是否包含伪造片段,关注的是一个二元问题(是或否)。Spoof定位:目标是在音频中定位出伪造和真实的区域,但通常不区分伪造片段的具体伪造方法。:不仅要定位伪造区域,还要根据不同的伪造方法对这些区域进行聚类,提供更详细的伪造信息。开放集挑战Spoof检测和定位:可能不需要处理训练数据中未见过的伪造方法。:需要能够处理训练时未见过的伪造方法,即“开放集”挑战,这要求系统能够识别和聚类未知的伪造技术。处理伪造片段的粒度。原创 2024-11-01 18:23:28 · 877 阅读 · 0 评论 -
【Paper Note】利用Boundary-aware Attention边界感知注意力机制增强部分伪造音频定位
部分伪造音频定位的任务旨在准确确定帧级别的音频真实性。尽管一些工作取得了令人鼓舞的成果,但在单个模型中利用有界信息仍然是一个未经探索的研究课题。在这项工作中,我们提出了一种称为边界感知注意力机制Boundary-aware Attention Mechanism的新方法。“边界”(Boundary)指的是在音频信号中,真实语音和合成语音(或伪造语音)相接合的地方。这些边界区域通常包含混合了真实和伪造音频的帧,对于检测和定位伪造音频来说,识别这些边界位置是非常重要的。原创 2024-10-31 16:42:02 · 1194 阅读 · 0 评论 -
视频扩散模型介绍 Video Diffusion Models Introduction
扩散过程和去噪过程去噪器,预测出来噪声然后与原始图片相减,得到干净的图片当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”跳步DDIM和DDPM作对比:原创 2024-03-05 15:21:03 · 2093 阅读 · 1 评论 -
CV及LLM常见名词解释
看论文的时候,有些术语虽然常见但是却让人很难理解具体含义,如noise等,这里是一些常见术语的解释,同时也给出了这些术语所在的上下文及模型。原创 2024-02-28 17:05:24 · 740 阅读 · 0 评论 -
论文编写思路
论文写作相关,科研小白入门原创 2024-02-27 13:32:28 · 893 阅读 · 0 评论 -
【Paper Note】Attention is all your need
Attention is all your need 的论文笔记原创 2023-04-08 15:35:55 · 1421 阅读 · 0 评论 -
【Paper】复现VideoMAE
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training论文复现注意事项原创 2023-06-27 02:46:25 · 1524 阅读 · 4 评论 -
【Paper】复现论文Prototypical Networks for Few-shot Learning
论文复现时的一些踩坑和经验原创 2023-06-23 17:38:23 · 1013 阅读 · 0 评论 -
【踩坑】复现End-to-End Referring Video Object Segmentation with Multimodal Transformers
论文复现过程的一些踩坑原创 2023-06-22 03:59:36 · 446 阅读 · 0 评论 -
【Paper Note】Video Swin Transformer
Video Swin Transformer论文笔记原创 2023-04-19 16:30:28 · 663 阅读 · 0 评论 -
【Paper Note】ViViT: A Video Vision Transformer
ViViT论文阅读笔记原创 2023-04-17 12:15:07 · 889 阅读 · 0 评论 -
【Paper Note】Swin Transformer: Hierarchical ViT using Shifted Windows
Swin transformer笔记原创 2023-04-17 09:44:27 · 588 阅读 · 0 评论 -
【Paper Note】An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
视觉transformer文章An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale原创 2023-04-09 14:39:38 · 240 阅读 · 0 评论