Michael_ph-CSDN博客

原创 VLAD+video classification 浅析

一、VLAD 名称：Vector of Local Aggregated Descriptor 计算步骤：提取SIFT描述算子训练K个聚类中心的码本，k-means，所有数据每个SIFT找到最近的聚类中心求残差残差和，然后得到k*N的向量，即为所求二、NetVLAD 论文：https://arxiv.org/pdf/1511.07247.pdf 时间线：2016 TPAMI 主要内容：...

2021-06-28 19:13:26 382

原创 ViViT: A Video Vision Transformer 阅读笔记

论文：https://arxiv.org/pdf/2103.15691.pdf开源代码：无时间线：2021 arxiv领域：行为识别机构：google research1.Motivation使用纯transformer结构解决视频分类问题；2.主要方法2.1 transformer结构设计一共四种transformer结构：1.直接复用原始transformer ...

2021-06-28 19:01:48 998

原创 NextVlad 阅读笔记

论文：https://arxiv.org/pdf/1511.07247.pdfgit

2021-05-31 16:23:21 1052

论文：https://arxiv.org/pdf/1810.04805.pdfgithub：https://github.com/google-research/bert时间线：arxiv-2018 NAACL-HLT 2019摘要Bidirectional Encoder Representations from Transformers，作为预训练的基网络，可以支持不同的下游任务，包括但不限于：文本分类、question answer等，不用为每个任务单独训练巨量数据，只用在基网络的后.

2021-04-29 17:01:25 176

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Michael_ph的博客

原创 VLAD+video classification 浅析

原创 ViViT: A Video Vision Transformer 阅读笔记

原创 NextVlad 阅读笔记

原创 Bert 阅读

空空如也

空空如也