计算机视觉
文章平均质量分 90
Cheungleilei
一个仙女
展开
-
【论文阅读】ICNet: Intra-saliency Correlation Network for Co-Saliency Detection
本文发表在NeurIPS 2020上,内容是关于Co-SOD,主要讲了如何充分利用intra-saliency和inter-saliency,每一步都解释得很到位,是一篇很值得阅读的论文。一些名词解释Co-salient Object Detection (Co-SOD): Detect the common salient objects among a group of input images.Intra-saliency: salient object detection of a sin.原创 2022-03-22 20:00:57 · 722 阅读 · 0 评论 -
【论文阅读】Visual Sentiment Prediction Based on Automatic Discovery of Affective Regions
概括本文尝试去解决在情感分析中所遇到的情感分类和可解释性问题。这里的可解释性主要指图片上哪一区域会影响人类视觉对情感的判断。本文解决这个问题的办法是引入了Affective Region (AR),类似空间注意力的东西。结合流程图,整体的思路和亮点有两个:弱监督找到AR(建立自动寻找AR的模型),用于定位最容易影响人类视觉判断情感的区域,起到辅助情感分类的作用。【也就是下面的红色虚线框部分】建立情感分类器(采用了求和池化、最大池化、级联三个策略)【红色虚线框以外的部分】产生候选AR首先看.原创 2022-02-23 15:41:32 · 578 阅读 · 0 评论 -
HRNet提取骨架特征点+ ST-GCN训练自己的数据集代码实践问题记录
软硬件环境:python 3.6.5Ubuntu 18.04 LTSPytorch 1.1.0NVIDIA TITAN XP 8GB项目链接https://github.com/open-mmlab/mmskeleton准备工作先准备数据集准备环境,包含两步:第一步: 进入文件夹./deprecated/origin_stgcn_repo/ ,打开requirements.txt看下需要满足的环境条件,conda list:我不直接安装requirements.txt中的需求原因是,原创 2020-06-18 16:13:36 · 11785 阅读 · 67 评论 -
Linux下基于Pytorch框架用HRNet提取骨架特征点+解决CUDA和Torch版本不匹配问题
软硬件环境:python 3.6.5Ubuntu 18.04 LTSPytorch 1.1.0NVIDIA TITAN XP 8GB准备工作到github把HRNet代码clone或downloads下来,具体链接:https://github.com/stefanopini/simple-HRNetclone代码: git clone https://github.com/stefanopini/simple-HRNet.git将所需包都安装下来:pip install -r re原创 2020-06-11 17:53:29 · 5156 阅读 · 24 评论 -
【论文阅读】GhostNet: More Features from Cheap Operations(GhostNet学习笔记)
华为诺亚方舟实验室提出新型端侧神经网络架构GhostNet。论文地址:https://arxiv.org/pdf/1911.11907.pdf从论文的摘要可以对GhostNet有个大概的了解:Deploying convolutional neural networks (CNNs) on embedded devices is difficult due to the limited m...原创 2020-03-23 11:33:09 · 1285 阅读 · 0 评论 -
对视觉显著性检测(Saliency Object Detection)中Channel Attention的一些总结
因为最近的paper涉及,所以对channel attention进行了了解,比较浅显,但是以此篇博客记录,之后有相关进展,也会更新。已经有很多相关的文章对Attention的本质,原理进行介绍。例如:Attention综述:基础原理、变种和最近研究我挑一些我学习过程中觉得重要的点。首先,Attention的本质是一个查询(query)到一系列(键key-值value)对的映射,也就是一个寻...原创 2020-03-05 10:50:29 · 4376 阅读 · 0 评论 -
【论文阅读】Emotion-Aware Human Attention Prediction
Cordel M O, Fan S, Shen Z, et al. Emotion-Aware Human Attention Prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4026-4035.摘要:尽管最近在人脸识别和物体分类方面取得了成功...原创 2020-01-07 19:17:25 · 892 阅读 · 0 评论 -
【论文阅读】A Simple Pooling-Based Design for Real-Time Salient Object Detection
摘要:本文通过扩展卷积神经网络中的池化部分来解决显著目标检测问题。基于特征金字塔,在自底向上路径上加入GGM模块(Global Guidance Module),目的是为不同特征层提供潜在显著对象的位置信息。在自顶向下路径上加入FAM模块(Feature Aggregation Module),目的是将粗糙语义信息和细致特征更好融合。在FPNs的融合操作后的自顶向下路径中加入FAMs,能够多尺度...原创 2019-12-24 11:09:31 · 970 阅读 · 0 评论 -
真正超详细手把手用YOLOv3训练自己的数据集实战过程记录(Ubuntu18.04)
最近还有项目是目标检测,所以开始接触目标检测器,那就从最普遍的YOLOV3开始。基础的YOLO知识,计划之后整理,先记录一下代码过程。软硬件环境:python 3.6.5Ubuntu18.04 LTSPyTorch 1.1.0NVIDIA TITAN XP准备数据集第一步就是准备一个目标检测的数据集,这个数据集可以使用官方提供的,感觉下载也可以自己制作,这里我使用的数据集是细胞数据...原创 2019-12-12 21:10:40 · 7402 阅读 · 8 评论 -
Win10+Tensorflow+OpenPose超超超详细安装及各种遇到的问题解决
首先介绍一下安装的环境:—————————————————————————————————Win 10Python 3.6CUDA 10.0cuDNN 7.6.0—————————————————————————————————安装参考Mark的教程用git将tf-pose-estimation clone下来。也可以直接在网页上点clone or download,然后Down...原创 2019-11-07 10:41:20 · 5359 阅读 · 8 评论 -
【行为识别】论文阅读笔记1|Two-Stream Convolutional Networks for Action Recognition in Videos
参考山水之间2018的文章,行为识别(Action Recognition) 的目的是对一个给定的视频片段进行分类。行为检测(Action Detection) 的目的是知道一个动作在视频中是否发生,以及动作发生在视频中的开始时间和结束时间。行为识别和行为检测的关系类似于图片分类和目标检测的关系。目前行为识别有两个主流的结构,一个是Two-Stream,一个是C3D,本文阅读了Two-St...原创 2019-10-28 16:32:04 · 2511 阅读 · 0 评论 -
【行为识别】论文阅读笔记2|C3D:使用3D卷积网络学习时空特征
Learning Spatiotemporal Features with 3D Convolutional Networks摘要提出了一个简单但有效的学习时空特征的方法,利用在大规模监督视频数据集上训练得到的深度三维卷积网络(3D ConvNets)学习。贡献主要有三个方面:对比2D卷积网络,3D卷积网络更适合学习时空特征。对3D卷积网络来说,在所有层都用3×3×3的小卷积效果最好...原创 2019-11-19 10:33:28 · 3058 阅读 · 1 评论 -
【论文阅读】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
摘要动态人类骨架能够为人体行为识别传递大量的信息。传统的对人体骨架建模的方法是依赖于手工涉及或者遍历规则的,导致的结果就是表达力不强且泛化困难。在这里提出一种创新的动态骨架建模方法ST-GCN,能自动从数据中学习空间和时间特征。引言人体的行为可以由集中形式被识别:外观、光流和骨架。其中骨架蕴含大量信息,所以本文系统地研究了这种形式,将骨架运用到行为识别方向。动态的骨架能够自然地由2D或者...原创 2019-12-07 15:37:02 · 2487 阅读 · 0 评论 -
RGB-D图像知识以及与HHA的关系
RGB-DRGB-D=RGB + Depth Map从RGB图像中,是无法获取深度信息的,但Depth Map,也就是深度图像的每个像素点的灰度值是可以表征场景中某一点距离摄像机的远近的,包含与视点的场景对象的表面距离有关的信息的图像或图像通道,类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的,因而像素点之间具有一对一的对应关系。RGB-D...原创 2019-12-13 10:16:34 · 2950 阅读 · 0 评论 -
VGG16理解
网络上能找到很多VGG的六种网络结构图,这六种结构分为A,A-LRN,B,C,D,E六种,D,E两种结构是常用的,这里使用了Rogn的图:Rogn用绿色的部分指明了VGG16采用的结构,从这张图能看到,D中有5个卷积块,总共13层卷积层,最后接了3层全连接层,通过下图可以直观看到VGG16的网络结构:在上图中,红色为最大池化层,黑色为卷积层+ReLU层,蓝色为全连接层和ReLU层,棕色为sof...原创 2019-12-19 17:31:41 · 1364 阅读 · 0 评论 -
ResNet-50网络理解
本文主要针对ResNet-50对深度残差网络进行一个理解和分析ResNet已经被广泛运用于各种特征提取应用中,当深度学习网络层数越深时,理论上表达能力会更强,但是CNN网络达到一定的深度后,再加深,分类性能不会提高,而是会导致网络收敛更缓慢,准确率也随着降低,即使把数据集增大,解决过拟合的问题,分类性能和准确度也不会提高。Kaiming大神等人发现残差网络能够解决这一问题。这里首先放上一张Res...原创 2019-12-19 11:26:59 · 120709 阅读 · 20 评论