自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 VLAD+video classification 浅析

一、VLAD 名称:Vector of Local Aggregated Descriptor 计算步骤:提取SIFT描述算子 训练K个聚类中心的码本,k-means,所有数据 每个SIFT找到最近的聚类中心 求残差 残差和,然后得到k*N的向量,即为所求二、NetVLAD 论文:https://arxiv.org/pdf/1511.07247.pdf 时间线:2016 TPAMI 主要内容:...

2021-06-28 19:13:26 298

原创 ViViT: A Video Vision Transformer 阅读笔记

论文:https://arxiv.org/pdf/2103.15691.pdf开源代码:无时间线:2021 arxiv领域:行为识别机构:google research1.Motivation使用纯transformer结构解决视频分类问题;2.主要方法2.1 transformer结构设计一共四种transformer结构:1.直接复用原始transformer ...

2021-06-28 19:01:48 816

原创 NextVlad 阅读笔记

论文:https://arxiv.org/pdf/1511.07247.pdfgit

2021-05-31 16:23:21 921

原创 Bert 阅读

论文:https://arxiv.org/pdf/1810.04805.pdfgithub:https://github.com/google-research/bert时间线:arxiv-2018 NAACL-HLT 2019摘要Bidirectional Encoder Representations from Transformers,作为预训练的基网络,可以支持不同的下游任务,包括但不限于:文本分类、question answer等,不用为每个任务单独训练巨量数据,只用在基网络的后.

2021-04-29 17:01:25 137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除