论文笔记
文章平均质量分 61
Miss_zhuo_
好好码哦
展开
-
超分研究
超分辨率图像重构(SR)用信号处理或图像处理的方法,将LR(Low-Resolution)图像转换为HR(High Resolution)图像。1. 总体分类基于重建的超分辨率问题 (Reconstruction-based super-resolution):输入为低分辨率图像序列 (视频), 输出为单帧高分辨率图像; 视频超分辨率问题 (Video super-resolution):输入与输出均为图像序列 (视频) ; 单帧图像超分辨率问题 (Single image superres原创 2021-04-22 13:44:10 · 338 阅读 · 0 评论 -
写小论文的工具
1. 查论文中词组搭配用法: https://linggle.com/2. 检查句子错误: https://fanyi.sogou.com/writing https://app.grammarly.com/原创 2020-12-29 15:32:01 · 265 阅读 · 0 评论 -
CIDEr 评价指标
CIDEr:常用语图像字幕生成,CIDEr 是 BLEU 和向量空间模型的结合。它把每个句子看成文档,然后计算 TF-IDF 向量(只不过 term 是 n-gram 而不是单词)的余弦夹角,据此得到候选句子和参考句子的相似度,同样是不同长度的 n-gram 相似度取平均得到最终结果。优点是不同的 n-gram 随着 TF-IDF 的不同而有不同的权重,因为整个语料里更常见的 n-gram 包含了更小的信息量。图像字幕生成评价的要点是看模型有没有抓取到关键信息,比如说一幅图的内容是『白天一个人在游泳转载 2020-10-22 11:14:25 · 9788 阅读 · 9 评论 -
R-CNN
AlexNet参考文章2012 年 Krizhevsky 等人在 ImageNet 举办的 ILSVRC 目标识别挑战大赛中一战成名,豪夺当年的第一名,Top5 错误率 15%,而他们团队提出来的网络结构以他们的导师名字命名,它就是 AlexNet。VGGNetResNetRCNN参考文章借鉴了滑动窗口思想,R-CNN 采用对区域进行识别的方案。利用候选区域与 CNN 结合做目标定位给定一张输入图片,从图片中提取 2000 个...转载 2020-10-19 22:48:39 · 253 阅读 · 0 评论 -
HOG算法
HOG:Histogram of Oriented Gradient方向梯度直方图参考文章一、算法实质在一副图像中,梯度或边缘的方向密度分布能够很好地描述局部目标区域的特征,HPG正是利用这种思想,对梯度信息做出统计,并生成最后的特征描述。在HOG中,对一副图像进行了如下划分:图像(image)---> 检测窗口(win)---> 图像块(block)---> 细胞单元(cell)对于上述流程图,有几点需要注意的地方:1.色彩和伽马归一化为了减少光照因素的影响,.转载 2020-10-19 22:04:15 · 2993 阅读 · 0 评论 -
SIFT
SIFT算法:尺度不变特征变换参考文章一、算法实质:在不同的尺度空间上查找关键点,并计算出关键点的方向二、特征匹配的流程提取关键点:关键点是一些十分突出的不会因光照、尺度、旋转等因素而消失的点,比如角点、边缘点、暗区域的亮点以及亮区域的暗点。此步骤是搜索所有尺度空间上的图像位置。通过高斯微分函数来识别潜在的具有尺度和旋转不变的兴趣点。 定位关键点并确定特征方向:在每个候选位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于他们的稳定程度。然后基于图像局部的梯度方向,分配.转载 2020-10-19 20:26:32 · 215 阅读 · 0 评论 -
论文经验
一、论文调研快速调研完近年来相关方向的主要论文,每篇文章了解思路,并做记录和摘要,形成充足的paper list方便回忆和整理related work。二、方向明确不管实现细节,主体脉络上把握好要朝什么方向走,要通过哪类技术实现什么具体目标(要通过引入 知识图谱/强化学习/多任务学习/语法解析 的手段,实现 XXX数据集/任务的提升 )。三、论文精读1、仔细研读目标技术所需技术的论文,是否有人做过?是否可做?有没有坑?2、精读选定最主要的参考范文,并由此出发思考如何在自己..原创 2020-09-28 15:17:02 · 243 阅读 · 0 评论 -
Transformer
原创 2020-08-25 15:48:06 · 155 阅读 · 0 评论 -
VQA+Visual Reasoning SOTA探索
2014-2019年VQA论文:https://heary.cn/posts/VQA-%E8%BF%91%E4%BA%94%E5%B9%B4%E8%A7%86%E8%A7%89%E9%97%AE%E7%AD%94%E9%A1%B6%E4%BC%9A%E8%AE%BA%E6%96%87%E5%88%9B%E6%96%B0%E7%82%B9%E7%AC%94%E8%AE%B0/2020Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-ba原创 2020-06-19 12:32:25 · 916 阅读 · 0 评论 -
LXMERT 实验
论文:Learning Cross-Modality Encoder Representations from Transformers地址:https://arxiv.org/abs/1908.07490?context=cscode:https://github.com/airsplay/lxmertLXMERT 框架来学习语言和视觉的联系它含有3个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器它使用了 5个不同的有代表性的pre-train任务:...原创 2020-06-18 22:01:00 · 1734 阅读 · 0 评论 -
【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations
paper:http://www.ytzhang.net/files/publications/2018-cvpr-lmdis-rep.pdfslide:http://www.ytzhang.net/files/publications/2018-cvpr-lmdis-rep-slides.pdf整个运用了 autoencoder的思想,通过最小化重构误差来优化encoder 和...转载 2019-12-14 19:57:14 · 501 阅读 · 0 评论