算法
文章平均质量分 81
studyeboy
这个作者很懒,什么都没留下…
展开
-
torchvision.utils.save_image
【代码】torchvision.utils.save_image。原创 2024-08-29 17:44:05 · 382 阅读 · 0 评论 -
人脸检测——Faceboxes
我的系统中使用的Python3.8,直接。使用的是python3.6,所以修改。需要用到的文件,nms中的编译文件为。原创 2023-03-23 16:35:12 · 142 阅读 · 0 评论 -
图像亮度调整
基于RGB空间亮度调整算法:主要是对RGB空间进行亮度调整。计算出调整系数后,调整手段主要有两种:1) 基于当前RGB值大小进行调整,即R、G、B值越大,调整的越大,例如:当前像素点为(100,200,50),调整系数1.1,则调整后为(110,220,55);2) 不考虑RGB值大小的影响,即始终对各个点R、G、B值进行相同的调整,例如:当前像素点为(100,200,50),调整系数10/255,则调整后为(110,210,60)。原创 2023-02-23 16:12:25 · 2289 阅读 · 0 评论 -
智能设计-阿里巴巴Banner设计
阿里巴巴Banner设计的核心在于优化会场页面拓展及Banner尺寸拓展两部分低水平重复建设工作,提升设计效率,压缩设计周期,为设计师保留充裕的创意时间。原创 2022-11-03 15:46:23 · 745 阅读 · 0 评论 -
Towards End-to-End Unified Scene Text Detection and Layout Analysis(2022)
场景文本检测和文档布局分析长期以来一直被视为不同图像域中的两个独立任务。在本文中,我们将它们结合在一起,介绍了统一场景文本检测和布局分析的任务。引入了第一个分层场景文本数据集以实现这一新颖的研究任务。我们还提出了一种新颖的方法,能够同时检测场景文本并以统一的方式形成文本集群。综合实验表明,我们的统一模型比多种设计良好的基线方法具有更好的性能。此外,该模型在多个场景文本检测数据集上实现了最先进的结果,而无需复杂的后处理。原创 2022-11-03 10:10:36 · 663 阅读 · 0 评论 -
自动排版布局-Layout GAN
布局对图像设计和场景生成非常重要。我们提出了一种新的生成对抗网络,称为Layout GAN,它通过建模不同类型的2D元素的几何关系来综合布局。Layout GAN的生成器将一组随机放置的2D图形元素作为输入,并使用自我注意力模块来细化它们的标签和几何参数,生成逼真的布局。精确布局对于良好布局至关重要。因此我们提出了一种新的可微线框渲染层,该层将生成的布局映射到线框图像,在此基础上,使用基于CNN的鉴别器来优化图像空间的布局。原创 2022-11-02 14:52:51 · 1641 阅读 · 0 评论 -
JoJoGAN: One Shot Face Stylization(2021)
[Paper]JoJoGAN:One Shot Face Stylization[Code]mchong6/JoJoGAN摘要虽然最近在少镜头图像风格化方面取得了进展,但这些方法未能捕捉到人类显而易见的风格细节。眼睛的形状、线条的粗细等细节对于模型来说尤其难以学习,尤其是在有限的数据设置下。在这项工作中,我们的目标是执行使细节正确的 oneshot 图像风格化。给定参考样式图像,我们使用 GAN 反演近似配对真实数据,并使用该近似配对数据对预训练的 StyleGAN 进行微调。然后我们鼓励 Styl原创 2022-05-25 11:40:44 · 1144 阅读 · 1 评论 -
千图成像原理
千图成像就是用很多张图片拼接成一张完整的图片,需要一张背景图像和一个图像库。根据背景图的结构用图像库中的图像进行拼接,最终形成新的拼接图像。原理将背景图像切割为若干小块,切割的越细生成的图像的效果越好,或者直接使用背景图像中的每个像素点;然后用图像库中与之最相近的图像拼接完成。颜色相近灰度图像直接计算所有像素灰度值的平均值,取最接近N张图后供后期再次筛选。彩色图像分别计算R/G/B的平均值,对于一张图像得到的是一个类似于[20, 30, 40]的数组,然后计算欧式距离,取最接近n张图像供后期原创 2022-05-10 13:12:51 · 684 阅读 · 0 评论 -
styleGAN
数据集在不同分辨率下在不同数据集上训练的预训练 StyleGAN 模型的集合。DatasetimagesinformationLSUN BedroomsLSUN CarsLSUN CatsCelebA HQ FacesFFHQ FacesPokemonAnime FacesAnime PortraitsWikiArt FacesAbstract PhotosVasesFi原创 2022-05-10 13:11:47 · 747 阅读 · 0 评论 -
StyleMapGAN代码解读
加载模型if __name__ == "__main__": device = "cuda" parser = argparse.ArgumentParser() parser.add_argument( "--mixing_type", choices=[ "local_editing", "transplantation", "w_interpolation", .原创 2022-05-10 13:10:27 · 639 阅读 · 0 评论 -
动漫风格化—AnimeGANv2
animegan2_face2paint_v2bryandlee/naver-webtoon-facesAnimeGANv2项目[Project]AnimeGANv2摘要在计算机视觉和艺术风格转移方面,将现实世界场景的照片转换为动漫风格的图像是一项有意义且具有挑战性的任务。我们之前提出的AnimeGAN结合了神经风格迁移合生成对抗网络(GAN)来完成这项任务。但是,AnimeGAN仍然存在一些明显的问题,例如模型生成的图像中存在高频伪影。因此,在本研究汇总,我们提出了AnimeGAN的改进版本原创 2022-05-10 13:08:06 · 6793 阅读 · 0 评论 -
16进制颜色值转RGB颜色值
常规项目:# 16进制颜色格式颜色转换为RGB格式def hex_to_rgb(hex): r = int(hex[1:3],16) g = int(hex[3:5],16) b = int(hex[5:7], 16) return r,g,bdef add_bg_color(image, rgb): bg_img = np.zeros((image.shape[0], image.shape[1], 3), np.uint8) bg_img[:, :,原创 2022-04-18 14:53:13 · 5008 阅读 · 0 评论 -
Constrained Graphic Layout Generation via Latent Optimization(2021)
[Paper] Constrained Graphic Layout Generation via Latent Optimization[Code] ktrk115/const_layout通过潜在优化生成约束图形布局摘要在平面设计中,人类根据设计意图和语义在视觉上排列各种元素是很常见的。例如,标题文本几乎总是出现在文档中其他元素的顶部。在这项工作中,我们生成的图形布局可以灵活地结合这种设计语义,无论是由用户隐式指定还是明确指定。我们使用现成的布局生成模型的潜在空间进行优化,允许我们的方法与现有原创 2022-02-11 11:10:16 · 2738 阅读 · 0 评论 -
base64和图像之间的转换
Base64是网络上最常见的用于传输8bit字节码的编码方式之一,Base64就是一种基于64个可打印字符(包括a-z、A-Z、0-9、/、+)来表示二进制数据的方法。Base64编码是从二进制到字符的过程,可以用于在HTTP环境下传递较长的标识信息。按照RFC0的定义,Base64 被定义为:Base64内容传送编码被设计用来把任意序列的8位字节描述为一种不易被人直接识别的形式。Base64要求把每三个8bit的字节转换为四个6bit的字节(38=46=24),然后把6bit再添加两位高位0,组成四个原创 2021-11-26 16:47:00 · 1105 阅读 · 0 评论 -
EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)
[Paper] EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)[Code]PaddlePaddle/PaddleSegEdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided FlowEdgeFlow:使用 Edge-Guided Flow 实现实用的交互式分割高质量的训练数据在图像分割任务中起着关键原创 2021-11-19 16:50:26 · 10564 阅读 · 0 评论 -
png格式图像转成jpg图像时出现异常颜色值
问题描述png图像有的可能包含透明通道,包含透明通道的png格式图像转换成jpg格式图像时,会出现异常的颜色值。非通过直接修改扩展名的方法,读取后又保存的。直接通过修改扩展名的方法读取保存后没有异常,但是本质没改变。对应图像属性解决方法img_path = '/special_data'out_path = '/special_data_jpg'for img_name in os.listdir(img_path): img = Image.open(os.path.join原创 2021-11-09 17:22:54 · 4012 阅读 · 0 评论 -
图像CMYK模式转RGB模式
问题描述图像jpeg格式转jpg格式时,出现色差。有色差的jpeg图像与其它jpeg图像的差别:问题原因图像是CMYK模式,一般的将CMYK直接转换成RGB模式会产生色差。该代码实现读取保存后,图像没有色差是因为图像读取保存后,虽然后缀名改变了,但是图像的模式本质还是CMYK模式,没有进行CMYK到RGB格式的转换。 img = Image.open('/test/2021-10-28_3150.jpeg') print(img.mode, type(img)) img.save('/原创 2021-11-09 16:58:07 · 5594 阅读 · 0 评论 -
引导图像滤波(Guided Image Filtering)
[Paper] Guided Image Filtering(2013)引导图像滤波摘要——在本文中,我们提出了一种新的显式图像滤波器,称为引导滤波器。从局部线性模型导出,引导滤波器通过考虑引导图像的内容来计算过滤输出,引导图像可以是输入图像本身或另一个不同的图像。引导过滤器也是一个比平滑更通用的概念:它可以将引导图像的结构传输到过滤输出,从而实现新的过滤应用,例如去雾和引导羽化。此外,无论内核大小和强度范围如何,引导滤波器自然具有快速且非近似的线性时间算法。目前,它是最快的边缘保留滤波器之一。实验表明原创 2021-11-05 13:58:50 · 10426 阅读 · 2 评论 -
Learning to Cartoonize Using White-box Cartoon Representations(2020)
[Paper] Learning to Cartoonize Using White-box Cartoon Representations(2020)[Code]SystemErrorWang/White-box-Cartoonization学习使用白盒卡通表示进行卡通化本文提出了一种图像卡通化的方法。通过观察卡通绘画行为和咨询艺术家,我们建议从图像中分别识别三个白盒表示:包含卡通图像平滑表面的表面表示,在赛璐珞风格的工作流程中,指的是稀疏色块和扁平化全局内容的结构表示,以及反映卡通图像中高频纹理原创 2021-11-03 16:04:46 · 755 阅读 · 0 评论 -
ByteTrack:Multi-Object Tracking by Associating Every Detection Box(2021)
[Paper]ByteTrack: Multi-Object Tracking by Associating Every Detection Box(2021)[Code]ifzhang/ByteTrackByteTrack:通过关联每个检测框进行多目标跟踪多对象跟踪 (MOT) 旨在估计视频中对象的边界框和身份。大多数方法通过关联得分高于阈值的检测框来获取身份。检测分数低的物体,例如 被遮挡的物体被简单地扔掉,这带来了不可忽视的真实物体缺失和碎片化的轨迹。为了解决这个问题,我们提出了一种简单、有效和原创 2021-11-02 16:15:21 · 2008 阅读 · 0 评论 -
Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)
[Paper] Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)[Code]saic-mdal/lama基于傅里叶卷积的分辨率稳健的大型掩码修复现在的图像修复系统,尽管取得了重大进展,但经常与大面积缺失区域、复杂几何结构和高分辨率图像做斗争。我们发现造成这种情况的主要原因之一是修复网络和损失函数都缺乏有效的感受野。为缓解这个问题,我们提出了一种称为大蒙版修复(LaMa)的新方法。LaMa基于:1)新的修复原创 2021-10-27 14:53:58 · 4826 阅读 · 0 评论 -
SKNet(2019)
在神经科学界,视皮层神经元的感受野大小受到刺激的调节,即对不同刺激,感受野的大小应该不同。目前很多卷积神经网络的相关工作都只是通过改进网络的空间结构来优化模型,如Inception模型通过引入不同大小的卷积核来获得不同感受野上的信息。但在构建传统CNN时一般在同一层只采用一种卷积核,即对于特定任务特定模型,卷积核大小是确定的,很少考虑多个卷积核的作用。我们在看不同尺寸不同远近的物体时,视觉皮层神经元接受域大小是会根据刺激来进行调节的。作者提出了一种在CNN中对卷积核的动态选择机制,该机制允许每个神经元根据原创 2021-08-17 13:59:21 · 761 阅读 · 0 评论 -
SENet(2017)
卷积核作为卷积神经网络的核心,通常被看作是在局部感受野上,将空间上(spatial)的信息和特征维度上(channel-wise)的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述。去学到一个性能非常强劲的网络是相当困难的,从空间维度层面来提升网络的性能,如Inception结构中嵌入了多尺度信息,聚合多种不同感受野上的特征来获得性能增益;在Inside-Outside网络中考虑了空间中的上下文信息;将Attenti原创 2021-08-17 10:53:14 · 256 阅读 · 0 评论 -
Involution-Convolution
参考资料Involution:Inverting the Inherence of Convoution for Visual Recognition(2021)d-li14/involutionInvolution(附对Involution的思考):港科大、字节跳动、北大提出“内卷”神经网络算子,在CV三大任务上提点明显...原创 2021-08-16 17:16:01 · 998 阅读 · 1 评论 -
降采样-升采样
降采样深度卷积神经网络中降采样的方法:stride大于1的poolingstride大于1的convstride大于1的reorg(reorganization改组整顿),由Joseph Redmond在YOLOv2中首次提出。conv用stride=2的conv降采样的卷积神经网络效果与使用pooling降采样的卷积神经网络效果相当;卷积神经网络小的时候,使用pooling降采样效果可能更好,卷积神经网络大的时候,使用stride=2的conv降采样效果更好。poolingpoolin原创 2021-06-29 16:23:37 · 2493 阅读 · 0 评论 -
DeepFaceLab:A simple,flexible and extensible face swapping framework(2020)
[Paper] DeepFaceLab:A simple, flexible and extensible face swapping framework[Code-Pytorch]deepfakes/faceswap[Code-Official]iperov/DeepFaceLab原创 2021-06-22 17:31:57 · 4647 阅读 · 0 评论 -
GANs:生成对抗网络系列及应用
GAN:生成对抗网络[paper]Generative Adversarial Nets(2014)一个神经网络试图生成接近真实的数据(注意:GANs可以用来模拟任何数据分布,但目前主要用于图像),另一个网络试图区分真实的数据和由生成网络生成的数据。生成器网络使用判别器作为损失函数,并更新其参数以生成看起来更真实的数据。判别器网络更新其参数,以便更好的从真实数据中识别出假数据。所以它的性能也变得更好了。达到平衡后,生成器创建的数据看起来足够真实,因此判别器能做的只是随机猜测。DCGAN:深原创 2021-06-22 14:13:46 · 1884 阅读 · 1 评论 -
Emerging Properties in Self-Supervised Vision Transformers(2021)
[paper] Emerging Properties in Self-Supervised Vision Transformers[code] facebookresearch/dino摘要在本文中,我们质疑自我监督学习是否为视觉变压器(ViT)[18]提供了与卷积网络(convnets)相比脱颖而出的新属性。除了使自我监督方法适应这种体系结构特别有效的事实之外,我们还做出以下观察:首先,自我监督的ViT功能包含有关图像语义分割的明确信息,而对于监督的ViT来说,这显然不明显, 也没有卷积网。其次原创 2021-06-11 11:05:23 · 5127 阅读 · 0 评论 -
JSON返回字符串的写法
方法一: data = {} result_data = {} data['name'] = 'John' data['age'] = 15 result_data['result'] = 'OK' result_data['message'] = 'success' result_data['data'] = data s = json.dumps(result_data) print(type(s), s)方法二: s原创 2021-06-10 15:18:10 · 953 阅读 · 0 评论 -
DeepFaceLab
DeepFaceLab从半脸(Half Face)到全脸(Full Face)再到整脸(Whole Face),脸部替换的区域愈来愈大,适用的范围也越来越广,效果也越来越震撼。当然很多人已经不满足与单纯换脸,而是希望把整个头给换了。这样的好处很明显,脸型不匹配的问题就不存在了,而且整体效果也会更加震撼。从本质上来说,脸型的变化,影响的主要是替换区域/覆盖区域。半脸适应性强,很多时候可以轻松出好的效果,但是有时眉毛换不了,下巴也会是个问题。中脸的面积比半脸大概大了30%,角上比较圆,眉毛也能被包含,原创 2021-06-07 10:08:20 · 2585 阅读 · 0 评论 -
限定条件的随机数生成
限定条件:生成随机数的和为N。生成P组。每个随机数的取值范围是1-8。def generate_images_of_page(img_num, page_num, sigma=1): list = [] num = page_num #剩余Page数 for i in range(0, page_num): if num != 1: #除了最后一个随机数,其余随机数的生成规则 mu = int(img_num / num)原创 2021-06-01 15:37:47 · 1083 阅读 · 0 评论 -
《生成对抗网络入门指南》—读书笔记
机器学习的研究旨在让计算机学会学习,能够模拟人类的学习行为,建立学习能力,用学习出来的思维模型对真实事件做出决策和预测。原创 2021-06-01 15:00:31 · 446 阅读 · 0 评论 -
face parsing label
CelebAMask-HQface-parsing.PyTorch原创 2021-05-13 10:08:45 · 656 阅读 · 0 评论 -
StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing(2021)
[paper] Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing[code] StyleMapGAN摘要生成对抗网络(GAN)从随机潜在向量合成逼真的图像。尽管操纵潜矢量控制了合成输出,但是用GAN编辑真实图像的缺点是:i)耗时的优化,无法将真实图像投影到潜矢量; ii)或通过编码器嵌入不准确。我们提出StyleMapGAN:中间潜在空间具有空间维度,而空间变异调制取代了AdaIN。与现有的基于优化的原创 2021-05-07 13:17:35 · 2332 阅读 · 2 评论 -
Image Manipulation:StyleGAN2 Distillation for Feed-forward Image Manipulation(2020)
StyleGAN2 Distillation for Feed-forward Image Manipulationstylegan2-distillation原创 2021-04-30 17:06:14 · 641 阅读 · 0 评论 -
基于图像的虚拟试衣:Image Based Virtual Try-On Network from Unpaired Data
Image Based Virtual Try-on Network from Unpaired DataImage-Based-Virtual-Try-on-Network-from-Unpaired-Data摘要本文提出了一种新的基于图像的虚拟试穿方法(Outfit-VITON),该方法可帮助可视化从各种参考图像中选择的衣物组成如何在查询图像中的人身上形成凝聚力的衣服。我们的算法具有两个独特的属性。首先,它不昂贵,因为它只需要一大套穿着各种服装的人的(独立的)(真实的和分类的)图像(没有真实的3原创 2021-04-29 16:54:17 · 2505 阅读 · 0 评论 -
Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)
StyleCLIP: Text-Driven Manipulation of StyleGAN ImageryStyleCLIP摘要受StyleGAN在各种领域中生成高质量逼真的图像的能力的启发,许多新工作集中在理解如何使用StyleGAN的潜在空间来操作生成的和真实的图像。然而,发现语义上有意的潜在操作通常涉及人类对多个自由度的仔细检查,或者为每个所需操作的图像的注释集合。在这项工作中,我们探索利用最新引入的对比语言-图像预训练(CLIP)模型的功能,以便为StyleGAN图像的处理开发基于文本的原创 2021-04-29 09:19:24 · 1442 阅读 · 0 评论 -
基于图像的虚拟换装:Morphing architectures for pose-based image generation of people in clothing
项目的重点是变形操作的特征化与实现,解决卷积神经网络中的信息失准问题。我们将所研究的方法应用到一个换衣服的任务中,将其建模为一个条件图像生成问题。尽管对抗性方法在生成性任务中很流行,但我们将此项目的范围限制为监督方法,因此有助于变形操作的学习。尽管在三维建模的深度学习领域取得了令人兴奋的进展,但我们将这个项目的范围限制在二维图像上。...原创 2021-04-28 11:06:39 · 1880 阅读 · 0 评论 -
Image Generation
Image-to-Image TranslationUnsupervised Image-to-Image TranslationUnsupervised image-to-image translation is the task of doing image-to-image translation without ground truth image-to-image pairings.One Shot Image to Image TranslationOne-Shot Unsuperv原创 2021-04-22 15:54:50 · 2188 阅读 · 0 评论 -
基于图像的虚拟试衣:SwapNet: Image Based Garment Transfer(2018)
[paper]SwapNet: Image Based Garment Transfer(2018)[code]SwapNet参考资料[paper]SwapNet: Image Based Garment Transfer(2018)[code]SwapNet原创 2021-04-15 16:06:06 · 1211 阅读 · 0 评论