模式识别
Legolas~
这个作者很懒,什么都没留下…
展开
-
WGAN解读(一)
WGAN全称Wasserstein GAN,重点以及和DCGAN的不同之处在于Wasserstein,Wasserstein是个啥呢?网上有很多很棒的解答,这里直接送上传送门KL散度、JS散度、Wasserstein距离WGAN的作者选择Wasserstein距离来度量真实图像分布和生成图像分布之间的距离,目标即为最小化该距离。尽管Wasserstein距离从公式的形式上来看比较复杂难懂,但是结合代码实现来看其实非常简单。官方GitHub给出的代码如下:loss_D = -torch.mean(dis原创 2021-05-13 21:24:13 · 3817 阅读 · 0 评论 -
图像识别最新进展:来自Google Brain Team的MLP-Mixer
CV领域最近几年发展火热,各种先进算法、模型层出不穷,CV领域的科研工作者和从业者也被迫需要天天学习新的structure,幻想有朝一日能够提出实现SOTA的方法。图像识别兜兜转转,居然从MLP开始经过CNN、Transformer又回到了MLP,近日,谷歌大脑团队提出的MLP-Mixer又引发了CV领域的浪潮,论文发布在arXiv,仔细发现参与的研究者大多也是Vision Transformer(ViT)的提出者,通过论文中的实验结论我们可以发现MLP-Mixer在JFT-300M数据集上的识别精度相比V原创 2021-05-10 15:02:55 · 783 阅读 · 0 评论 -
打印模型训练过程中的学习率
print(optimizer.state_dict()['param_groups'][0]['lr'])原创 2021-05-09 21:31:35 · 943 阅读 · 0 评论 -
图像评估指标:PSNR
公式:MSEMSEMSE:模型的输出图像与真实图像之间的均方误差MAXMAXMAX:nnn位RGB图像所能取到的最大值(例如nnn===888,此时MAXMAXMAX===2228^{8}8−-−111===255255255)意义(重点,面试常考):峰值信号的能量与噪声的平均能量之比代码实现:def psnr(pred, gt): pred = pred.clamp(0, 1).cpu().numpy() gt = gt.clamp(0, 1).cpu().numpy()原创 2021-05-09 09:57:17 · 1685 阅读 · 2 评论 -
Helen人脸数据集生成人脸分割
Helen人脸数据集包括2330张人脸图像,并且每张人脸图像包含11个部位的掩模,通常做人脸分割只需要面部以及面部特征掩模即可。数据集文件的整体结构如下:依赖的库:import osimport cv2 as cvimport numpy as np定义人脸分割不同部位的颜色:colors = [[160, 0, 10], [11, 138, 19], [11, 138, 19], [21, 83, 184], [21, 83, 184], [33, 182, 151], [255, 16,原创 2021-05-08 09:30:49 · 1884 阅读 · 2 评论 -
某些场景下采用3x3的卷积or5x5的卷积
假设我们要进行一次卷积操作,输入feature maps的channel为64,输出feature maps的channel也要为64,那么对于555×\times×555和333×\times×333的卷积尺寸该怎么选择呢?答案如下图所示:即选择333×\times×333的卷积核对输入的feature maps做两次卷积而非用555×\times×555的卷积核对输入的feature maps做一次卷积。这样做的主要区别在于两点:1.参数量;2.感受野。kernel sizerecept原创 2021-05-06 16:16:55 · 406 阅读 · 0 评论 -
目标识别网络Faster RCNN:Pytorch源码分析(二)
锚框(anchors)产生:感觉论文这块内容说的不太细致,只能深挖源码了~from __future__ import print_function# --------------------------------------------------------# Faster R-CNN# Copyright (c) 2015 Microsoft# Licensed under The MIT License [see LICENSE for details]# Written by Ro原创 2020-11-21 21:50:00 · 180 阅读 · 0 评论 -
目标识别网络Faster-RCNN:Pytorch源码分析(一)
Faster-RCNN base & Faster-RCNN top (除去RPN部分) :Github源码如下(vgg16.py):# --------------------------------------------------------# Tensorflow Faster R-CNN# Licensed under The MIT License [see LICENSE for details]# Written by Xinlei Chen# ------------原创 2020-11-21 11:20:28 · 425 阅读 · 0 评论 -
【机器视觉】三维物体重建(一):fast角点检测
Edward Rosten & Tom Drummond于2006年提出的,通过机器学习与角点检测相互融合,实现快速高效检测角点。fast角点检测具体实现:该算法考虑以角点p为中心的圆,其边与图像像素点相交的像素位置,例如上图边所在的16个像素位置,如果存在一组n个连续的像素点其灰度值全部大于p点灰度值加上阈值或者全部小于p点灰度值减掉阈值,那么p即为角点。论文中n被设定为12,经过大量测试得出,因为n=12可以排除大量非角点。对于这16个像素位置,总共只有三种状态:或比p亮,或比p暗原创 2020-09-23 17:22:09 · 690 阅读 · 0 评论