计算机视觉
文章平均质量分 57
Hym_eric
github: https://github.com/HymEric
展开
-
2019_VideoBERT-A Joint Model for Video and Language Representation Learning_ICCV
模型:看上出很简单,就是利用了bert的模型,输入输出不仅仅是文本,将视频和文本相结合一起自监督训练,不仅可以得到单文本或者单视频内部的关系,还可以得到文本和视频的对应关系。文中强调了学习的是一种high-level的语义,和之前的视频表征学习不同,使用了三个现成的方法,ASR语音转文字(Youtube自带的一个API接口)、vector quantization(VQ)将视频转化为visual words和bert模型。主要贡献就是提出了这么一种自监督训练视频特征的方法。这里的输入前面的CLS原创 2021-06-23 09:14:34 · 317 阅读 · 0 评论 -
DropBlock:谷歌提出卷积正则化方法,CNN中的正则化
arXiv新上一篇被NIPS2018会议接收的论文《DropBlock: A regularization method for convolutional networks》,作者为来自谷歌大脑的研究人员,提出了一种专门针对卷积层正则化的方法,方法非常简单,有效改进了CNN的各种任务,非常值得一读!文中指出,在目前的神经网络训练的广泛实践中,全连接网络加DropOut是一种有效的正则化方法,...原创 2018-11-13 18:47:01 · 2631 阅读 · 0 评论