cv深似海
文章平均质量分 95
一只想飞的锦鲤
这个作者很懒,什么都没留下…
展开
-
SAM 2: Segment Anything in Images and Videos
1.现有的应用像自动驾驶,AR等来说都是需要temporal localization beyond image-level segmentation(时序定位而不仅是图片分割)2. 一个好的分割模型不应该仅仅局限于图片领域,而是图视频两者兼具3. 视频的分割,需要进行时空分割物体,需要有时空分割的能力,比起图片分割更为困难。除此之外,视频相较于图片会有物体被遮挡等问题,即更为困难的分割。除此之外,视频拥有多帧的特点,如何“高效”处理这些帧也是一个难点。毕竟没卡 0.0。原创 2024-08-01 15:55:25 · 1024 阅读 · 0 评论 -
视频理解论文汇总zoo(持续ing)
视频理解论文zooSlowFast Networks for Video RecognitionGcnet: Non-local networks meet squeeze-excitation networks and beyondVideo Classification With Channel-Separated Convolutional NetworksSTM: SpatioTemporal and Motion Encoding for Action RecognitionMore Is Les原创 2021-01-13 18:38:02 · 1531 阅读 · 0 评论 -
目标检测相关基础恶补——2020.12.25
目前就看了一个晚上就一下午,(●'◡'●) 目标检测 核心是:给一个图片,检测物体的类别和位置(框出来,即坐标) 不管哪个方法,记住我们的目标 ,即 objective YOLO系列 一阶段的方法,优点是速度快,整体来看就是:感觉是真正实现了,给一个图片,得到一个位置和类别。两阶段的中间还会生成一堆的预测框,无形中有很大的冗余 two-stage算法代表有R-CNN系列,one-stage算法代表有Yolo系列。 Yolo很快,因为用回归的方法,并且不用复杂的框架。 Yolo会基..原创 2020-12-25 20:20:27 · 481 阅读 · 0 评论 -
概率图模型+贝叶斯模型+VAE和GAN的部分理论(理解、解释)
结合了现有的几个知乎博客和自己的理解 + 阅读i相关应用类论文 说实话,大家写的都太散了= =,很不方便理解亚 花式解释AutoEncoder与VAE 使用自动编码器我们就能够通过输出图片的编码过程得到这种类型图片的编码之后的分布,相当于我们是知道每种图片对应的噪声分布,我们就能够通过选择特定的噪声来生成我们想要生成的图片。 VAE 和 AE 的区别:回忆一下我们在自动编码器中所做的事,我们需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比我们随机取一个随机噪声更好,因为这包含着原图片的原创 2020-12-15 18:32:06 · 1423 阅读 · 0 评论