自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_38064230的博客

小仙女呀灬 CSDN认证博客专家 CSDN认证企业博客

码龄7年

23: 原创

54万+: 周排名

215万+: 总排名

2万+: 访问

: 等级

239: 积分

13: 粉丝

7: 获赞

6: 评论

39: 收藏

私信

关注

热门文章

分类专栏

图像分割 2篇
Visual grounding 15篇

最新评论

论文：Disentangled Motif-aware Graph Learning for Phrase Grounding
Emma Yu: 请问一下这篇文章的代码有链接吗？一直没有找到QAQ
论文：SOLO: Segmenting Objects by Locations
小仙女呀灬: SOLO的highlight在于放进一个FPN之后，分成了两个并行的任务：Category Branch和Mask Branch，最后把两个结果合并起来输出结果
论文：Language-Aware Fine-Grained Object Representation for Referring Expression Comprehension
小仙女呀灬: Language-Aware Fine-Grained Object Representation这篇文章是提出了LDC和BIM。LDC是用来对文本进行学习语言感知的细粒度对象表示，然后BIM是一个双向交互模型来执行语言和视觉之间的交互。基于这两个设计了Hierarchical Fine-Grained Representation Network (HFRN)这个model，分成了图像和语言编码器、单词感知网络 (WAN)、句子感知网络 (SAN) 和检测头。图像 Encoder是FPN，文本Encoder是LSTM。之后我理解是先WAN后SAN，WAN用来学习和表示每个单词学习细粒度，之后输入到SAN从整个句子的角度来学习，最后输入detection head
论文：Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding
小仙女呀灬: LBYL是通过自己写的卷积来实现的landmark特征卷积，先用FPN和 LSTN进行图像和文本的特征提取，然后fusion放进卷积网络进行landmark提取，然后这个landmark可能涉及到一点和以前的boundingbox不一样的东西，就是能notice到物体的边界和动作，最后再输出一个框
论文：TransVG: End-to-End Visual Grounding with Transformers
myccmj: 学习一下

最新文章

Visual grounding

关注

文章平均质量分 90

关注数：文章数：15 文章阅读量：16058 文章收藏量：17

作者: 小仙女呀灬

这个作者很懒，什么都没留下…

展开