- 博客(683)
- 资源 (2)
- 收藏
- 关注
原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!
learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。
2023-12-03 15:08:05 191
原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!
3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。
2023-12-02 12:17:55 1227
原创 [SaaS] AIGC营销创意应用方向
U设计周2023,阿里妈妈重磅推出创意工具,可变字体,虚拟人3大AI创意能力升级,创意生成效率,创意质量以及多元经营场景的适配率都得到了质的提升,极致的满足着品牌日益精细化的创意诉求。以大促会场设计为例,介绍我们设计师如何在营销活动设计中,构建AI工作流与多元化的AIGC能力应用,来一起一探究竟吧~🔍。设计不用等,30秒搞定生鲜零售设计!营销大促、品类项目、氛围计划、市场营销传播、门店美陈空间标准、阿里妈妈 X U设计周|AI 设计赋能商业狂飙!用AI做大促设计 | 轻松又高效,躺着也能做设计。
2024-03-18 11:39:38 275
原创 基于stable diffusion的IP海报生成
,无需训练Lora模型!dataset-tag-editor,逐个检查,概括要点,一是自然语言+关键词描述,两个相互结合,要把画面中出现的元素都打上,且那想让AI记住什么,就不要去打那个关键词,例如熊本熊黑色红色腮红,那些特征性的东西不要去打。加触发词,我发现有的教程说可以不加,但是我发现固定IP 的话,加上等于触发,没尝试过不加,但是我都会加上。白底IP图,场景IP结合图,单独场景图,训练尺寸统一,512x512,512x768,768x1152,如果尺寸不是64的倍数,会对图片进行裁剪。
2024-03-18 11:39:05 463
原创 [SaaS] 母亲节海报设计
人工智能技术正在不断发展和演变,因此设计师需要时刻保持学习和更新的状态,以跟上技术的发展,帮助自己创造出更加创新和独特的设计作品。提升AI可控 & 出图质量。
2024-03-18 10:19:16 58
原创 [SaaS] 城市消费券项目
面对时代趋势,团队早在22年底就开展了AIGC在「电商行业领域」的研究和探索,旨在运用新技术帮助团队提升工作效率和质量,高效地解决业务难题。「AIGC实战」城市消费券项目经验。
2024-03-15 17:50:23 167
原创 [SaaS] 淘宝设计AI
Midjounery出创意视觉大方向—>Topaz Photo AI 高清处理—>PS beta 优化+修改局部画面—>SD细节融合+优化材质—>Found快速合成超级符号.下面是一个完整的品牌营销海报设计流程,AIGC起到了巨大作用,但是仍然很难去一步解决这个问题,还是逐步修改的一个过程。“淘宝设计+AI” 让国际大牌造世界。双11超级品牌 超级发布。
2024-03-15 16:04:09 203
原创 Midjourney视觉垫图
midjourney以图生图,从sd角度出发,将图像信息输入的方式有很多种,包括ip-adapter,在fooocus中针对midjourney中的功能做了对比,midjourney应该不是将图片先转成prompt,在拼prompt输出的,sd中的img2img,实际上是将图片通过vae得到image embedding,再和latent拼在一起得到输出。一、设计师前言随着数字时代的到来,人工智能正在被广泛应用于各个领域,其中艺术和设计领域的AI应用备受瞩目。
2024-03-15 15:12:53 499
原创 [SaaS] 家作->装修设计师
构建用户对未来家的想象,是家装家居多年来持续探索的方向,如今利用AI技术,我们设计了一款搭配产品,用户只需提供心仪的商品图片,选择自己想要的风格,便可快速生成一张围绕该商品的场景搭配,当前主要面向商家,未来希望人人都可以用它来装修自己的家。一张商品图,结合用户的自定义输入,便可生成多张场景效果。生图:核心逻辑是扩图,会在淘宝海量的商品图上训练模型,再结合行业运营对风格趋势的把控,在根据商品的特征及用户的选择,先搭配软装(controlnet),再搭配硬装环境(inpainting),最后渲染出图。
2024-03-15 11:49:22 345
原创 Salient object detection 显著图检测
这篇论文提出了一个预测-优化的框架,BASNet,以及一个新的针对边界感知显著目标检测的混合损失。1.为了捕获全局和局部的信息,提出了一个新的预测-优化网络,将unet的深度监督的encoder-decoder网络和一个新的残差模块结合,encoder-decoder将输入图像转换为一个概率图,而优化模块则通过学习粗糙的特征图和gt之间的残差来优化预测的输出.将全卷积应用到显著性检测,显著性检测的2个挑战,1.显著性检测主要是由整张图像的全局的明暗对比度定义而来,而不是局部或像素点的特征;
2024-03-12 09:48:25 844
原创 automatic matting业务流总结
抠图分为辅助输入和自动抠图,辅助输入主要是需要trimap图/分割图/背景图,其中trimap图主要就是通过分割的方法或者显著图检测的方法先腐蚀再膨胀生成的,二阶段可以输入trimap在获得精确的alpha图,alpha图是0-1之间的值,通常分割输出0/255值,显著图输出0-1之间的值,通常来讲基于trimap二阶段方法还是要轻量化一点,如果是二阶段流程的话,一阶段其实用抠图,显著图检测,分割的方法都可以,加一个后处理的库即可,这块rembg中的是pymatting这个后处理的库。
2024-03-11 13:46:13 176
原创 stable diffusion的额外信息融入方式
conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。
2024-03-06 15:22:42 325
原创 主流抠图算法trimap-based/free
抠图类任务目前是基础类任务,是我们不需要去训练的,目前开源的抠图类算法很多,包括通用抠图,头部抠图,物体抠图,人像抠图,视频抠图这些目前都是有相当丰富的开源接口可以使用,通常来说,最多需要finetune一次,基本拿来即用,在基础的ai项目上,其实有很多项目都不需要在训练了,比如说目前的行人识别,行人骨骼点识别,人脸识别等很多项目主要是在部署这块,包括后处理逻辑的开发和多平台的移植这块,算法侧的训练和优化早不是重点了。文章浏览阅读283次。输入可以是trimap,粗略二进制分割图,低质量alpha,
2024-03-05 15:46:25 885
原创 DiffusionMat:Alpha Matting as sequential refinement learning
在SDEdit中,由于随机噪声带来的随机性,可以将噪声引导的trimap图像去噪为任意的alpha抠图,然而作为一项感知任务,图像抠图只有一个确定性的alpha抠图,为了获取精确的alpha,我们使用GT反转引导来纠正中间去噪结果,具体来说,给定GT alpha,通过DDIM反转将其映射到预训练的扩散模型上,并获得确定性的反转轨迹,可以纠正过程中用作监督信号。DiffusionMat的基本思想是未知区域的抠图可以逐步改进,并从每一次的迭代的反馈中受益,纠正和细化结果。
2024-03-05 15:45:40 463
原创 MatteFormer:Transformer-based image matting via prior-tokens
本文核心2点:1.提出了PA-WSA(Prior-Attentive Window self-attention),2.通过trimap生成Prior-tokens。目前基于transformer的matting方法,大多就是把swin transformer修修改改,加一些模块,当然也很难验证其所加模块的有效性,也许是transformer本身的能力带来的算法增益。文章浏览阅读1.2k次。
2024-03-05 14:04:01 433
原创 ViTMatte:Boosting image matting with pretrained plain vision transformers
给定一个RGB图像HXWX3以及其对应的trimap HXWX1,按通道连接它们并输入到ViTMatte中,ViT作为基础特征提取器,生成一个stride=16的单个特征图,detail capture模块由一系列卷积层组成,用于捕捉和融合图像matting中的详细信息,简单的在不同尺度上采样和融合特征,以预测最终的alpha。将普通VIT中的block分层m组G,每个组中包含n个transformer块,对于G中的块,我们仅在最后一个块bn中应用全局注意力,而在其他块中使用窗口注意力,而非全局注意力。
2024-03-04 20:09:00 287
原创 M3Net:Multilevel,Mixed and Multistage attention network for salient object detection
为了促进多层特征之间,提出了Multilevel interaction block,引入了cross-attention机制以实现多层特征的交互,让高层特征引导低层特征以增强显著区域。多阶段解码器的细节,通过上采样方法将多级特征转换为相同分辨率,为了更好的整合特征融合后的显著信息,我们进一步进行混合注意力,上面这个图结合网络结构图,看,并不是F3那一层的mib直接入两个特征,后面两个接入三个特征,看b也发现,其实接入三个,也是两两一个,mib很简单就是一个cross-attention.
2024-03-04 16:28:29 389
原创 Semantic human matting
将3通道图像与来自TNet的3通道图串联作为6通道输入,DIM使用3通道图和1通道trimap(1,0.5,0表示前景,未知区域和背景)作为4通道输入,6通道输入和4通道输入几乎有相同的性能,MNet有13个卷积层和4个最大池化层,编码器网络和VGG16相同,VGG16的conv1是3个输入通道,MNet有6个输入通道,每个卷积层后面添加了批归一化,移除了conv6和deconv6.TNet预训练,膨胀alpha生成trimap,400x400;扮演着语义分割的角色,输出3通道图,PSPNet50.
2024-03-01 14:27:55 300
原创 Mask Guided Matting via Progressive Refinement network
网络以图像和粗略mask作为输入,并输出抠图 ,在解码过程中,RPN在每个特征级别产生一个边缘抠图输出,在不同尺度上已经证明边缘输出对于改善特征学习是有效的,线性融合边缘输出对于抠图不理想,因为靠近物体边界的图像区域需要较低级别特征来勾勒前景,而识别物体内部区域需要更高级别的指导。0代表黑,1代表白,结合上面这张图分析,PRM的第一行,当前级别l,使用以下函数从前一个级别的抠图输入alphal-1生成gl,如何生成呢?输入可以是trimap,粗略二进制分割图,低质量alpha,
2024-02-29 15:58:05 221
原创 Highly accurate dichotomous image segmentation
在图像分割组件Fsg中,在生成概率图之前,图像I被转换为一组高维中间特征图,每个特征图与其对应的GT中间特征图具有相同的维度,接着,中间监督通过高维特征一致性损失,对中间特征进行监督。大多数模型在训练集上容易过度拟合,可以对给定的深度网络的中间输出进行监督,通过神经网络的最后一层特征图而产生的单通道概率图,然而将高维特征转换为单通道概率图本质上是一种降维操作,不可避免的丢失关键信息。使用GIMP对每张图进行像素级精度手动标记,平均每张图图像的标记时间约30分钟,有些图像的标记时间长达10h。
2024-02-28 14:40:56 407
原创 F,B,Alpha Matting
Resnet50,输入通道从3增加到9以适应trimap,使用三个不同尺度的前景和背景掩码的高斯模糊来编码trimap,与现有的matting方法不同,通常将trimap编码为具有值为1的单通道前景,值为0.5的未知值和值为0的背景。其次,移除了resnet50的layer3和layer4,并将膨胀率增加到2和4,可以在最高尺度上进行处理,而不降低分辨率。输出层包含7个通道,对应alpha,F,B,将alpha的值归一化0-1之间,sigmoid函数,F和B也采用sigmoid函数,以保持在0-1之间。
2024-02-26 14:35:40 249
原创 outpainting的几种实现方式
这是一个基于stable diffusion的扩展绘画工具(outpainting). Contribute to WatchTower-Liu/diffusion-outpainting development by creating an account on GitHub.大部分扩图还是第一种,init_img+init_mask,把原图的区域扩大,扩大后的区域可以用马赛克或者噪声图代替,制作只有原图的mask,尺寸和扩大的图片尺寸一直,再进行inpainting即可。
2024-02-04 17:53:03 1015
原创 Revisiting image pyramid structure for high resolution salient object detection
SICA的整体操作遵循OCRNet的方法。拉普拉斯金字塔存储了每个尺度中低通滤波图像与原始图像之间的差异,可以将拉普拉斯图像解释为低通滤波信号的余项,即高频细节,我们重新设计我们的网络,通过构建拉普拉斯金字塔,集中于边界细节并从最小的阶段到其原始大小重新构建显著图,从最上层的阶段stage-3开始,将初始显著性图作为输入,并从拉普拉斯显著图中聚合高频细节。在多尺度编码器中使用了UACANet中的PAA-e来减少骨干特征图的通道数,并使用PAA-d在最小阶段(即stage3)上预测初始显著图。
2024-02-01 19:09:34 533
原创 U2net:Going deeper with nested u-structure for salient object detection
图2中d用了inception结构,通过扩张卷积来扩大感受野,受unet启发,RSU用于捕捉阶内多尺度特征,RSU和残差连结最大的不同在于,RSU使用了一个类似于UNET的结构来替换单一流的普通卷积,并用一个权重层转换的局部特征来代替原始特征。U2net是一种为SOD设计的两级嵌套U结构,不使用图像分类的预训练骨干网络,在底层设计了一种新颖的Residual U-blocks,能够提取多尺度特征而不降低特征图分辨率,在顶层,有一个类似UNET的结构,每个极端都由RSU填充。交叉熵监督sup0-6,
2024-01-31 15:57:29 382
原创 Boosting semantic human matting with coarse annotations
tensorflow,按顺序对三个网络进行训练,在输入到MPN之前,对所有的图进行降采样处理,192x160,在每个训练上随机翻转,在MPN上训练20个epoch,将低分辨率图像和输出的前景mask连接起来作为输入来训练QUN,在训练QUN时,对精细化注释数据执行随机滤波(滤波器大小为3或5),二值化和形态学操作(腐蚀膨胀)以生成配对的高质量和低质量mask数据。第一阶段预测的是粗糙的mask,所有的训练数据调整为192x160,使用所有数据进行训练,包括低质量和高质量的注释数据。
2024-01-30 17:36:25 873
原创 BASNet:Boundary-aware salient object detection
这篇论文提出了一个预测-优化的框架,BASNet,以及一个新的针对边界感知显著目标检测的混合损失。1.为了捕获全局和局部的信息,提出了一个新的预测-优化网络,将unet的深度监督的encoder-decoder网络和一个新的残差模块结合,encoder-decoder将输入图像转换为一个概率图,而优化模块则通过学习粗糙的特征图和gt之间的残差来优化预测的输出.将全卷积应用到显著性检测,显著性检测的2个挑战,1.显著性检测主要是由整张图像的全局的明暗对比度定义而来,而不是局部或像素点的特征;
2024-01-25 16:38:58 1025
原创 算法训练平台资源
总之试来试去,还是autodl比较方便,但是autodl的资源是真的紧张,经常释放了就等不到卡了。现在很多平台都把github、huggingface都屏蔽了,太麻烦了。
2024-01-25 09:44:49 357
原创 automatic matting 抠图算法汇总
电商图抠图算法,主要还是关注商品图抠图,内部也有自研的抠图算法,下面主要关注开源抠图算法。一般来说关注trimap-free的方法,即一步抠图,业务上也是trimap-free更加友好,当然业务流上可以先计算trimap,然后再走trimap-based抠图。都是和我们抠图类似的思路,先显著性检测Tracerb7模型,在Trimap-based fbamatting精细化抠图。编码器处理单帧图片,先降采样,中间虚线是之前的特征,递归解码器逐步解码,深导滤波器,就是一个可学习的引导滤波器。
2024-01-02 15:36:55 917
原创 Style Aligned image generation via shared attention
可以应用于任何基于注意力的文本到图像扩散模型上,在扩散过程中通过从每个生成的图像到batch中的第一个图像进行最小的attention sharing operations,可以得到一组具有一致风格的图像,此外利用扩散反演,可以根据参考风格图像生成具有一致风格的图像,无需优化或微调。QKV分别为从集合Li的深层特征投影中得到的query,key和value,full attention sharing可能会影响生成图的质量,会导致图像之间的内容泄露,例如图5所示,图像集中的独角兽染上了恐龙身上的绿色颜料。
2023-12-30 16:09:09 506 1
原创 Deep image matting:A comprehensive survy
采用不同的输入方式,适用于自动和辅助方法,对于需要辅助信息来约束解空间的方法,输入方式可以进一步分为多种类型,包括带有trimap的RGB图像,带有background image的RGB图像,带有coarse maps的RGB图像,带有user click的RGB图像,带有flexible inputs的RGB图像,带有text description的RGB图像。图像抠图是指从任意图像中准确提取前景物体的alpha,I表示输入图像,F表示前景,B表示背景,alpha表示不透明度。
2023-12-30 11:14:11 903
原创 stable diffusion webui之lora调用
例如<lora:C4D_geometry_bg_v2.5:0.8>;(分数不一定要取到1,0.8也行);2.引用时一定要使用。
2023-12-20 17:24:41 408
原创 CLE Diffusion:Controllable light enhancement diffusion model
首先通过计算平均像素值来提取正常光图像的原始亮度级别lamda,使用一个随机正交矩阵将平均值编码成illumination embedding,照明embedding进一步嵌入到unet中,使用亮度控制模块,Film学习基于照明embedding的特征逐通道放射变换,然后,通过沿通道轴将特征分成两半,一个副本与特征相乘,一个副本与特征图相加。Angular color loss:增加亮度可以放大低光图像中的颜色失真,采用了一种颜色损失,鼓励增强图像y0的颜色和真实值y相匹配;全局和局部直方图均衡化;
2023-12-14 17:46:33 97
原创 MagicAnimate:Temporally consistent human image animation using diffusion model
MagicAnimate,使用Appearance encoder将参考图嵌入为Appearance embedding ya,然后将目标姿势序列,如DensePose,传入姿势控制网络Fp,提取运动条件yp,在这两个信号的基础上,训练视频扩散模型,将参考任务的身份根据给定的运动进行动画化,为了减轻一些片段之间的细微不连续性,采用一种简单的视频融合方法来提高过渡的平滑性,将整个视频分解为重叠的片段,并简单的对重叠帧的预测进行平均,引入了一种图像视频联合训练策略。TikTok和TED-talks数据集,
2023-12-14 15:00:13 191
原创 PowerPaint - A Task isworth one word:Learning with task prompts for highquality vesatile img inpaint
8个A100进行了25k迭代,bs为1024,lr为1e-5,OpenImage V6的语义分割自己作为多任务提示调整的主要数据集,根据Smartbrush,使用分割标签和blip生成局部文本描述,同时,将文本到图像生成任务视为inapinting,即mask掉所有内容,的特例,并使用LAION-Aesthetics v2 5+的图像和文本训练,在训练阶段,主任务和文本图像生成任务概率为80%和20%。图像上有的,一般像移除等,图像上没有的,向文本引导的重新生成。其中,1.文本引导的目标修复,看右边的图;
2023-12-14 11:08:16 715
原创 VideoComposer:Compositional video synthesis with motion controllability
3.时间条件,在temporal维度实现更精细的控制,引入了4个时间条件,a,motion vector,作为视频特定元素,运动向量被表示为二维向量,即水平和处置方向,编码了相邻两帧之间的像素级移动,如图3所示,从研所视频中提取标准的MPEG-4格式的运动向量;2.空间条件,a,单个图像,视频由连续的图像组成,单个图像通常会揭示该视频的内容和结构,给定视频的第一帧作为空间条件进行图像到视频的生成;用LDM的预训练来初始化,1.通过文本到视频生成预训练,专注于temporal建模;
2023-12-13 17:21:35 75
原创 AnimateAnything:Fine-grained open domain image animation with motion guidance
前一帧和后一帧中的灰度值差异,阈值Tm确定了可移动区域和不可移动区域中的运动强度,如果Tm设置的太高,非移动区域的物体可能出现运动,Tm设置的太低,不可移动的区域中的物体可能完全冻结,可能导致运动区域边界出现伪影,在d中识别这些差异区域的轮廓,并通过将标签1分配给这些轮廓内包含的像素,构建运动区域mask,表示可移动区域m。使用以下方法从真实视频中构建训练对,包括视频和相应的运动区域mask,首先,将给定的N帧视频样本转换为灰度图像,计算超过阈值Tm的帧差异,这些差异被合并为创建差异二值mask,
2023-12-13 16:37:06 135
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人