深度学习
文章平均质量分 87
studyeboy
这个作者很懒,什么都没留下…
展开
-
Towards End-to-End Unified Scene Text Detection and Layout Analysis(2022)
场景文本检测和文档布局分析长期以来一直被视为不同图像域中的两个独立任务。在本文中,我们将它们结合在一起,介绍了统一场景文本检测和布局分析的任务。引入了第一个分层场景文本数据集以实现这一新颖的研究任务。我们还提出了一种新颖的方法,能够同时检测场景文本并以统一的方式形成文本集群。综合实验表明,我们的统一模型比多种设计良好的基线方法具有更好的性能。此外,该模型在多个场景文本检测数据集上实现了最先进的结果,而无需复杂的后处理。原创 2022-11-03 10:10:36 · 663 阅读 · 0 评论 -
自动排版布局-Layout GAN
布局对图像设计和场景生成非常重要。我们提出了一种新的生成对抗网络,称为Layout GAN,它通过建模不同类型的2D元素的几何关系来综合布局。Layout GAN的生成器将一组随机放置的2D图形元素作为输入,并使用自我注意力模块来细化它们的标签和几何参数,生成逼真的布局。精确布局对于良好布局至关重要。因此我们提出了一种新的可微线框渲染层,该层将生成的布局映射到线框图像,在此基础上,使用基于CNN的鉴别器来优化图像空间的布局。原创 2022-11-02 14:52:51 · 1641 阅读 · 0 评论 -
JoJoGAN: One Shot Face Stylization(2021)
[Paper]JoJoGAN:One Shot Face Stylization[Code]mchong6/JoJoGAN摘要虽然最近在少镜头图像风格化方面取得了进展,但这些方法未能捕捉到人类显而易见的风格细节。眼睛的形状、线条的粗细等细节对于模型来说尤其难以学习,尤其是在有限的数据设置下。在这项工作中,我们的目标是执行使细节正确的 oneshot 图像风格化。给定参考样式图像,我们使用 GAN 反演近似配对真实数据,并使用该近似配对数据对预训练的 StyleGAN 进行微调。然后我们鼓励 Styl原创 2022-05-25 11:40:44 · 1144 阅读 · 1 评论 -
styleGAN
数据集在不同分辨率下在不同数据集上训练的预训练 StyleGAN 模型的集合。DatasetimagesinformationLSUN BedroomsLSUN CarsLSUN CatsCelebA HQ FacesFFHQ FacesPokemonAnime FacesAnime PortraitsWikiArt FacesAbstract PhotosVasesFi原创 2022-05-10 13:11:47 · 747 阅读 · 0 评论 -
StyleMapGAN代码解读
加载模型if __name__ == "__main__": device = "cuda" parser = argparse.ArgumentParser() parser.add_argument( "--mixing_type", choices=[ "local_editing", "transplantation", "w_interpolation", .原创 2022-05-10 13:10:27 · 639 阅读 · 0 评论 -
动漫风格化—AnimeGANv2
animegan2_face2paint_v2bryandlee/naver-webtoon-facesAnimeGANv2项目[Project]AnimeGANv2摘要在计算机视觉和艺术风格转移方面,将现实世界场景的照片转换为动漫风格的图像是一项有意义且具有挑战性的任务。我们之前提出的AnimeGAN结合了神经风格迁移合生成对抗网络(GAN)来完成这项任务。但是,AnimeGAN仍然存在一些明显的问题,例如模型生成的图像中存在高频伪影。因此,在本研究汇总,我们提出了AnimeGAN的改进版本原创 2022-05-10 13:08:06 · 6793 阅读 · 0 评论 -
判断Numpy.ndarray/PyTorch张量是否为空
判断Numpy.ndarray是否为空#bboxes是ndarray类型if bboxes.size > 0: print('ndarray bboxes is not empty')else: print('ndarray bboxes is empty')判断PyTorch中张量是否为空import torch #data是tensor张量if data.numel() > 0: print('tensor data is not empty')el原创 2022-03-02 16:54:40 · 2465 阅读 · 0 评论 -
conda 环境中部署gunicorn+flask项目
系统环境中安装的是Python3.5,项目中需要的Python为3.6及以上的环境,所以用conda虚拟环境进行隔离。conda项目搭建进入虚拟环境,安装所需要的包。#创建虚拟环境conda create -n pytorch python=3.6#进入虚拟环境conda activate pytorch#从清华源下载安装pytorchconda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/原创 2022-03-02 13:46:45 · 2262 阅读 · 2 评论 -
Constrained Graphic Layout Generation via Latent Optimization(2021)
[Paper] Constrained Graphic Layout Generation via Latent Optimization[Code] ktrk115/const_layout通过潜在优化生成约束图形布局摘要在平面设计中,人类根据设计意图和语义在视觉上排列各种元素是很常见的。例如,标题文本几乎总是出现在文档中其他元素的顶部。在这项工作中,我们生成的图形布局可以灵活地结合这种设计语义,无论是由用户隐式指定还是明确指定。我们使用现成的布局生成模型的潜在空间进行优化,允许我们的方法与现有原创 2022-02-11 11:10:16 · 2738 阅读 · 0 评论 -
PyG:PyTorch Geometric Library
PyG是一个基于PyTorch用与处理部规则数据(比如图)的库,是一个用于在图等数据上快速实现表征学习的框架,是当前最流行和广泛使用的GNN(Graph Neural Networks, GNN 图神经网络)库。Graph Neural Networks,GNN,称为图神经网络,是深度学习中近年来比较受关注的领域,GNN通过对信息的传递、转换和聚合实现特征的提取,类似与传统的CNN,只是CNN只能处理规则的输入,如图像等输入的高、宽和通道数都是固定的,而GNN可以处理部规则的输入,如点云等。安装pip原创 2022-02-10 13:39:23 · 1798 阅读 · 0 评论 -
EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)
[Paper] EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)[Code]PaddlePaddle/PaddleSegEdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided FlowEdgeFlow:使用 Edge-Guided Flow 实现实用的交互式分割高质量的训练数据在图像分割任务中起着关键原创 2021-11-19 16:50:26 · 10564 阅读 · 0 评论 -
图像位深转换:64位->32位
问题描述在深度学习的图像处理中遇到如下问题:TypeError: can't convert np.ndarray of type numpy.uint16. The only supported types are: float64, float32, float16, complex64, complex128, int64, int32, int16, int8, uint8, and bool.问题原因问题出现,是因为 改变了图像的读取参数。之前输入的图像是通过cv2.imread(i原创 2021-11-08 16:32:41 · 2349 阅读 · 1 评论 -
引导图像滤波(Guided Image Filtering)
[Paper] Guided Image Filtering(2013)引导图像滤波摘要——在本文中,我们提出了一种新的显式图像滤波器,称为引导滤波器。从局部线性模型导出,引导滤波器通过考虑引导图像的内容来计算过滤输出,引导图像可以是输入图像本身或另一个不同的图像。引导过滤器也是一个比平滑更通用的概念:它可以将引导图像的结构传输到过滤输出,从而实现新的过滤应用,例如去雾和引导羽化。此外,无论内核大小和强度范围如何,引导滤波器自然具有快速且非近似的线性时间算法。目前,它是最快的边缘保留滤波器之一。实验表明原创 2021-11-05 13:58:50 · 10426 阅读 · 2 评论 -
TensorFlow2.x和TensorFlow1.x版本冲突问题解决
问题描述:问题分析安装的是TensorFlow2.0但是使用的是TensorFlow1.0版本的代码。解决办法把整个TensorFlow2.0的调用转换为TensorFlow1.0的调用,无需对单个函数就行修改。#import tensorflow as tf #2021-11-03 tensorflow2.0 version#2021-11-03 tensorflow 2.0 version using version 1.x method import tensorflow.co原创 2021-11-04 09:46:00 · 1328 阅读 · 0 评论 -
ModuleNotFoundError:No module named ‘tensorflow.contrib’
问题描述:问题原因:tensorflow2以上的版本没有contrib属性解决办法:下载镜像包tf_slim将import tensorflow.contrib.slim as slim改为import tf_slim as slim参考资料不降级解决ModuleNotFoundError: No module named ‘tensorflow.contrib‘...原创 2021-11-03 17:36:39 · 2675 阅读 · 0 评论 -
Learning to Cartoonize Using White-box Cartoon Representations(2020)
[Paper] Learning to Cartoonize Using White-box Cartoon Representations(2020)[Code]SystemErrorWang/White-box-Cartoonization学习使用白盒卡通表示进行卡通化本文提出了一种图像卡通化的方法。通过观察卡通绘画行为和咨询艺术家,我们建议从图像中分别识别三个白盒表示:包含卡通图像平滑表面的表面表示,在赛璐珞风格的工作流程中,指的是稀疏色块和扁平化全局内容的结构表示,以及反映卡通图像中高频纹理原创 2021-11-03 16:04:46 · 755 阅读 · 0 评论 -
ByteTrack:Multi-Object Tracking by Associating Every Detection Box(2021)
[Paper]ByteTrack: Multi-Object Tracking by Associating Every Detection Box(2021)[Code]ifzhang/ByteTrackByteTrack:通过关联每个检测框进行多目标跟踪多对象跟踪 (MOT) 旨在估计视频中对象的边界框和身份。大多数方法通过关联得分高于阈值的检测框来获取身份。检测分数低的物体,例如 被遮挡的物体被简单地扔掉,这带来了不可忽视的真实物体缺失和碎片化的轨迹。为了解决这个问题,我们提出了一种简单、有效和原创 2021-11-02 16:15:21 · 2008 阅读 · 0 评论 -
Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)
[Paper] Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)[Code]saic-mdal/lama基于傅里叶卷积的分辨率稳健的大型掩码修复现在的图像修复系统,尽管取得了重大进展,但经常与大面积缺失区域、复杂几何结构和高分辨率图像做斗争。我们发现造成这种情况的主要原因之一是修复网络和损失函数都缺乏有效的感受野。为缓解这个问题,我们提出了一种称为大蒙版修复(LaMa)的新方法。LaMa基于:1)新的修复原创 2021-10-27 14:53:58 · 4826 阅读 · 0 评论 -
李宏毅机器学习—读书笔记
李宏毅机器学习笔记(LeeML-Notes)leeml-notes原创 2021-10-21 17:25:54 · 611 阅读 · 1 评论 -
SKNet(2019)
在神经科学界,视皮层神经元的感受野大小受到刺激的调节,即对不同刺激,感受野的大小应该不同。目前很多卷积神经网络的相关工作都只是通过改进网络的空间结构来优化模型,如Inception模型通过引入不同大小的卷积核来获得不同感受野上的信息。但在构建传统CNN时一般在同一层只采用一种卷积核,即对于特定任务特定模型,卷积核大小是确定的,很少考虑多个卷积核的作用。我们在看不同尺寸不同远近的物体时,视觉皮层神经元接受域大小是会根据刺激来进行调节的。作者提出了一种在CNN中对卷积核的动态选择机制,该机制允许每个神经元根据原创 2021-08-17 13:59:21 · 761 阅读 · 0 评论 -
SENet(2017)
卷积核作为卷积神经网络的核心,通常被看作是在局部感受野上,将空间上(spatial)的信息和特征维度上(channel-wise)的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述。去学到一个性能非常强劲的网络是相当困难的,从空间维度层面来提升网络的性能,如Inception结构中嵌入了多尺度信息,聚合多种不同感受野上的特征来获得性能增益;在Inside-Outside网络中考虑了空间中的上下文信息;将Attenti原创 2021-08-17 10:53:14 · 256 阅读 · 0 评论 -
Involution-Convolution
参考资料Involution:Inverting the Inherence of Convoution for Visual Recognition(2021)d-li14/involutionInvolution(附对Involution的思考):港科大、字节跳动、北大提出“内卷”神经网络算子,在CV三大任务上提点明显...原创 2021-08-16 17:16:01 · 998 阅读 · 1 评论 -
图像风格化——感知损失(perceptual loss)(2016)
[paper]Perceptual Losses for Real-Time Style Transfer and Super-Resolution(2016)Perceptual Losses for Real-Time Style Transfer and Super-Resolution:Supplementary Material《Loss Functions for Image Restoration with Neural Networks》中对图像复原任务中的损失函数进行了比较,指出了L2原创 2021-07-16 14:09:51 · 8655 阅读 · 0 评论 -
常见损失函数
机器学习中的所有算法都依赖于最小化或最大化一个函数,称之为目标函数,最小化的这组函数被称为损失函数。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是梯度下降。机器学习中的监督学习本质上是给定一系列训练样本(xi,yi)(x_i, y_i)(xi,yi),尝试学习x→yx \rightarrow yx→y的映射关系,使得给定一个xxx,即使xxx不在训练样本中,也能够得到尽量接近真yyy的输出y^\hat yy^。而损失函数(Loss Function)是这个过程中关键的一个原创 2021-07-14 17:02:27 · 2207 阅读 · 0 评论 -
Pix2Pix(2017)+CycleGAN+Pix2PixHD
[paper][code]pytorch-CycleGAN-and-pix2pixPix2Pix是将GAN应用于有监督的图像到图像翻译的算法,有监督表示训练数据是成对的。图像到图像翻译(Image-to-Image translation)是GAN很重要的一个应用方向,图像到图像的翻译时基于一张输入图像得到想要的输出图像的过程,可以看做是图像和图像之间的一种映射(mapping),常见的图像修复、超分辨率其实都是图像到图像翻译的例子。还包括从标签到图像的生成、图像边缘到图像的生成等过程。Pix2Pi原创 2021-07-14 11:28:58 · 2095 阅读 · 0 评论 -
U-Net
U-Net和FCN非常相似,它们的结构用了一个比较经典的编码和解码(encoder-decoder)思路,U-Net比FCN稍晚提出来,但都发表在2015年,和FCN相比:U-Net是完全对称的,左边和右边是很类似的,而FCN的decoder相对简单,只用了一个Deconvolution的操作,之后并没有跟上卷积结构。skip connection,FCN用的是加操作(summation),U-Net用的是叠操作(concatenation)。U-Net这个结构提出的主要作用并不是分割,而是压缩图原创 2021-07-12 15:09:20 · 784 阅读 · 0 评论 -
吴恩达深度学习——读书笔记
深度学习概论神经网络房屋价格预测的模型:左边是输入层,由人工输入,中间是隐藏层,连接数很高,神经网络自己决定每个节点具体是什么,右边是输出层,神经网络非常擅长计算从x到y的精准映射函数。监督学习到目前为止,几乎所有由神经网络创作的经济价值,都是基于一种机器学习——监督学习。常见神经网络模型NN:神经网络(预测等)CNN:卷积神经网络(图像处理)RNN:循环神经网络(善于处理一维序列数据,包含时间成分)结构化与非结构化数据人类更容易理解非机构化的数据机器容易理解结构化数据原创 2021-07-12 14:09:13 · 1354 阅读 · 0 评论 -
降采样-升采样
降采样深度卷积神经网络中降采样的方法:stride大于1的poolingstride大于1的convstride大于1的reorg(reorganization改组整顿),由Joseph Redmond在YOLOv2中首次提出。conv用stride=2的conv降采样的卷积神经网络效果与使用pooling降采样的卷积神经网络效果相当;卷积神经网络小的时候,使用pooling降采样效果可能更好,卷积神经网络大的时候,使用stride=2的conv降采样效果更好。poolingpoolin原创 2021-06-29 16:23:37 · 2493 阅读 · 0 评论 -
Deep Supervision:深度监督(2014)+DHM
深度监督(Deep Supervision)又称为(中继监督 intermediate supervision),就是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧,其实就是在网络的中间部分添加了额外的loss,跟多任务是有区别的,多任务有不同给的GT计算不同的loss,而深度监督的GT都是同一个GT,不同位置的loss按系数求和。深度监督的目的是为了浅层能够得到更加充分的训练,解决深度神经网络训练梯度消失和收敛速度过慢等问题。深度监督作为一个训练技巧在201原创 2021-06-29 14:52:17 · 9197 阅读 · 1 评论 -
DenseNet:密集卷积网络(2018)
[paper]Densely Connected Convolutional Networks(2018)[code]liuzhuang13/DenseNet[mxnet code]miraclewkf/DenseNet文章摘要最近的工作表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含更短的连接,则它们可以更深入、更准确、更有效地进行训练。在本文中,我们接受了这一观察并介绍了密集卷积网络 (DenseNet),它以前馈方式将每一层连接到其他每一层。而具有 L 层的传统卷积网络有 L 个连接—原创 2021-06-25 17:06:04 · 2844 阅读 · 2 评论 -
BN(Batch Normalization):批量归一化
[paper]DeepLab2: A TensorFlow Library for Deep Labeling[code]DeepLab2: A TensorFLow Library for Deep LabelingDeepLab2 是一个用于深度标注的 TensorFlow 库,旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题原创 2021-06-24 16:56:49 · 3261 阅读 · 1 评论 -
DeepLab2:用于深度标记的TensorFlow库(2021)
DeepLab2: A TensorFLow Library for Deep LabelingDeepLab2 是一个用于深度标注的 TensorFlow 库,旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题。只要感兴趣的问题可以用这种方式表述,DeepLab2 就应该达到目的。此外,此代码库包括我们最近的和最先进的深度标签研究模原创 2021-06-24 09:36:42 · 2982 阅读 · 0 评论 -
FCN:全卷积网络
FCN(Fully Convolutional Networks)是深度学习应用在图像分割的代表作,是一种端到端(end to end)的图像分割方法,让网络做像素级别的预测直接得出label map。图像分割的分类:semantic segmentation:只标记语义,只要分割出某一类即可。instance segmentation:标记实例和语义,不仅分割出某一类,还要分割出是该类中的哪一个,也就是具体实例。CNN与FCN通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征原创 2021-06-23 17:04:27 · 1245 阅读 · 1 评论 -
DeepFaceLab:A simple,flexible and extensible face swapping framework(2020)
[Paper] DeepFaceLab:A simple, flexible and extensible face swapping framework[Code-Pytorch]deepfakes/faceswap[Code-Official]iperov/DeepFaceLab原创 2021-06-22 17:31:57 · 4647 阅读 · 0 评论 -
GANs:生成对抗网络系列及应用
GAN:生成对抗网络[paper]Generative Adversarial Nets(2014)一个神经网络试图生成接近真实的数据(注意:GANs可以用来模拟任何数据分布,但目前主要用于图像),另一个网络试图区分真实的数据和由生成网络生成的数据。生成器网络使用判别器作为损失函数,并更新其参数以生成看起来更真实的数据。判别器网络更新其参数,以便更好的从真实数据中识别出假数据。所以它的性能也变得更好了。达到平衡后,生成器创建的数据看起来足够真实,因此判别器能做的只是随机猜测。DCGAN:深原创 2021-06-22 14:13:46 · 1884 阅读 · 1 评论 -
Places365
数据集:Places Download代码:places365数据集Places 数据集的设计遵循人类视觉认知的原则。 我们的目标是构建视觉知识的核心,可用于训练人工系统以执行高级视觉理解任务,例如场景上下文、对象识别、动作和事件预测以及心理理论推理。Places 的语义类别由它们的功能定义:标签代表环境的入门级。 为了说明这一点,该数据集具有不同类别的卧室或街道等,因为它们的行为方式不同,并且对接下来可能发生的事情(家庭卧室、酒店卧室或托儿所)的预测也不同。Places 总共包含超过 1000 万原创 2021-06-16 14:25:08 · 9224 阅读 · 7 评论 -
Emerging Properties in Self-Supervised Vision Transformers(2021)
[paper] Emerging Properties in Self-Supervised Vision Transformers[code] facebookresearch/dino摘要在本文中,我们质疑自我监督学习是否为视觉变压器(ViT)[18]提供了与卷积网络(convnets)相比脱颖而出的新属性。除了使自我监督方法适应这种体系结构特别有效的事实之外,我们还做出以下观察:首先,自我监督的ViT功能包含有关图像语义分割的明确信息,而对于监督的ViT来说,这显然不明显, 也没有卷积网。其次原创 2021-06-11 11:05:23 · 5127 阅读 · 0 评论 -
DeepFaceLab
DeepFaceLab从半脸(Half Face)到全脸(Full Face)再到整脸(Whole Face),脸部替换的区域愈来愈大,适用的范围也越来越广,效果也越来越震撼。当然很多人已经不满足与单纯换脸,而是希望把整个头给换了。这样的好处很明显,脸型不匹配的问题就不存在了,而且整体效果也会更加震撼。从本质上来说,脸型的变化,影响的主要是替换区域/覆盖区域。半脸适应性强,很多时候可以轻松出好的效果,但是有时眉毛换不了,下巴也会是个问题。中脸的面积比半脸大概大了30%,角上比较圆,眉毛也能被包含,原创 2021-06-07 10:08:20 · 2585 阅读 · 0 评论 -
《生成对抗网络入门指南》—读书笔记
机器学习的研究旨在让计算机学会学习,能够模拟人类的学习行为,建立学习能力,用学习出来的思维模型对真实事件做出决策和预测。原创 2021-06-01 15:00:31 · 446 阅读 · 0 评论 -
face parsing label
CelebAMask-HQface-parsing.PyTorch原创 2021-05-13 10:08:45 · 656 阅读 · 0 评论