多媒体多模态
文章平均质量分 95
一只想飞的锦鲤
这个作者很懒,什么都没留下…
展开
-
SAM 2: Segment Anything in Images and Videos
1.现有的应用像自动驾驶,AR等来说都是需要temporal localization beyond image-level segmentation(时序定位而不仅是图片分割)2. 一个好的分割模型不应该仅仅局限于图片领域,而是图视频两者兼具3. 视频的分割,需要进行时空分割物体,需要有时空分割的能力,比起图片分割更为困难。除此之外,视频相较于图片会有物体被遮挡等问题,即更为困难的分割。除此之外,视频拥有多帧的特点,如何“高效”处理这些帧也是一个难点。毕竟没卡 0.0。原创 2024-08-01 15:55:25 · 1024 阅读 · 0 评论 -
视频理解论文汇总zoo(持续ing)
视频理解论文zooSlowFast Networks for Video RecognitionGcnet: Non-local networks meet squeeze-excitation networks and beyondVideo Classification With Channel-Separated Convolutional NetworksSTM: SpatioTemporal and Motion Encoding for Action RecognitionMore Is Les原创 2021-01-13 18:38:02 · 1531 阅读 · 0 评论 -
视频理解论文综述
Temporal Segment NetworkTSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧,比如 C3D 中使用的是连续采样间隔的16 frames,这样当输入是个Long视频,计算量很庞大~ 故文中就提出了 稀疏时间采样策略Pros:通过 Sparse temporal sampling 可以扔掉很多冗余帧,初步满足实际应用的real-time要求Cons:对于Temporal特征欠考虑...原创 2020-12-14 15:48:56 · 2000 阅读 · 1 评论 -
Valse-多模态进展
1. image caption原创 2020-11-28 20:18:56 · 142 阅读 · 0 评论 -
阅读论文知识点
一. 文本的全局和局部信息知乎优秀链接知乎优秀链接2大概就是 apple 可能有多种含义 ,利用全局信息更好的知道原创 2020-09-02 19:05:05 · 209 阅读 · 0 评论