AIGC 生成式人工智能
文章平均质量分 88
生成文字,图像,视频,语音识别,声音合成,3D模型,世界模型。。。万物可生成,编辑
曾小蛙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【FLUX微调+风格训练】从零免费训练自定义图像风格
免费风格微调的完整教程,基于(找图+清理筛选+打标+训练+推理验证原创 2025-02-20 18:38:27 · 908 阅读 · 0 评论 -
【杂谈+AI绘画】2D形象和场景生成在整体游戏设计中地位
AI如何在2D场景辅助在游戏中生产原创 2025-01-02 18:33:10 · 1747 阅读 · 0 评论 -
上传的logo印在生成图片上(in-context lora)
In-Context LoRA + Image-to-Image + Inpainting原创 2024-12-13 23:27:18 · 943 阅读 · 0 评论 -
在线运行PhotoMaker-V2进行ID图片生成 (无需配置环境)
鹅厂开源的AI绘图工具PhotoMaker火爆全网,最近PhotoMaker V2更强大的第二代来了!官方提到,在训练 PhotoMaker V2 时重点提升了 ID 保真度。与 PhotoMaker V1 相比, PhotoMaker V2 引入了新的训练策略,整合了更多的人像数据集,并利用了更强大的 ID 提取编码器。原创 2024-08-15 10:58:18 · 863 阅读 · 0 评论 -
【虚拟换衣+论文+代码】2403.OOTDiffusion:高分辨率(1024x768)可控的虚拟试穿(已开源,暂不能训练)
基于图片虚拟试穿(image-based virtual try-on ,VTON基于扩散模型全套试穿:Outfitting over Try-on Diffusion (利用预训练的潜在扩散模型的力量(),用于现实和可控的(realistic and controllable)虚拟试穿。在没有明确的衣物形变适应过程(warping process)的情况下,提出了一个outfitting UNet来学习服装细节特征,在扩散模型去噪过程中,通过我们提出的服装融合将其与目标人体融合。原创 2024-03-08 18:16:31 · 7746 阅读 · 7 评论 -
1张图片+3090显卡微调Qwen-VL视觉语言大模型(仅做演示、效果还需加大数据量)
一张图微调qwen-vl原创 2024-04-23 18:24:09 · 6543 阅读 · 17 评论 -
【大语言模型+Lora微调】10条对话微调Qwen-7B-Chat并进行推理 (聊天助手)
基于qwen1.0 和lora微调,训练自己的对话机器人原创 2024-04-19 10:40:52 · 5793 阅读 · 3 评论 -
【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)
Qwen-VL-7B` 是阿里基于语言模型`Qwen-7B`(LLMs),研发的**大规模视觉语言模型**(Large Vision Language Model, **LVLM**)> Qwen-VL-Chat = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip's `ViT-bigG`) + 位置感知视觉语言适配器(可训练Adapter)+`约15亿`训练数据+`多轮训练`原创 2024-03-26 17:07:25 · 15351 阅读 · 3 评论 -
【MLLM+轻量多模态模型】24.02.Bunny-v1.0-2B-zh: 轻量级多模态语言模型 (效果一般)
Bunny-3 是一个轻量级但功能强大的多模态模型系列。它提供多种即插即用的视觉编码器,如 EVA-CLIP、SigLIP 和语言主干网(LLM),包括Phi-1.5、StableLM-2、Qwen1.5 和 Phi-2。为了弥补模型大小的减少,我们通过从更广泛的数据源中精选来构建信息量更大的训练数据。原创 2024-03-18 19:10:08 · 3444 阅读 · 1 评论 -
【LLMs+小羊驼】23.03.Vicuna: 类似GPT4的开源聊天机器人( 90%* ChatGPT Quality)
Vicuna(音标 vɪˈkjuːnə ,小羊驼、骆马)是基于LLaMA的指令**微调**模型(类似GPT的文本生成模型)与LLaMA: 是基础大语言模型,用大量质量一般的互联网文本数据训练,与GPT3 、PaLM类似Vicuna 用ShareGPT网站的用户分享的7w条ChatGPT对话记录,对 LLaMA进行监督质量微调训练(Supervised Finturning),性能超越了LLaMa和Stanford Alpaca,达到了与ChatGPT相似的水平。将单词切分为。原创 2024-03-13 16:25:57 · 1962 阅读 · 0 评论 -
【hugggingface+下载】批量加速下载HuggingFace上的模型
【hugggingface】批量加速下载HuggingFace上的模型原创 2024-03-06 15:25:41 · 6043 阅读 · 0 评论 -
【多模态MLLMs+图像编辑】MGIE:苹果开源基于指令和大语言模型的图片编辑神器(24.02.03开源)
基于指令(Instruction-based)的图像编辑通过自然命令提高了图像操作的可控性和灵活性,而无需详细描述或区域掩模。然而,人类的指令有时过于简短,目前的方法无法捕捉和遵循。多模态大语言模型MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。我们研究了mllm如何促进编辑指令和呈现mllm引导的图像编辑(MGIE)。MGIE学习推导表达指令并提供明确的指导。编辑模型共同捕获这种视觉想象,并通过端到端训练执行操作。我们评估了photoshop风格的修改全局照片优化和局部编辑。原创 2024-02-05 18:24:16 · 4753 阅读 · 0 评论 -
【AI绘画+Midjourney平替】Fooocus:图像生成、修改软件(Controlnet原作者重新设计的UI+Windows一键部署)
Fooocus:AI绘画入门神器,windows一键启动 | 简化SD流程,专注于创意本身,一个免费随身的MidJourney工作室!原创 2024-02-02 15:31:34 · 2598 阅读 · 0 评论 -
【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)
2023年11月21日** 由 `Stability AI` 开源2个`图片到视频模型它将静止图像(still image)作为条件帧(conditioning frame),并从中生成视频分辨率(`1024x576`)。1. 上传已有1张图片,生成相关的视频片段、生成视频长度2-5秒,帧率 3-30帧每秒, 2. 串联一个Stable-XL模型,生成图片后,再生成视频 (文字到图片再到视频)原创 2024-01-25 19:34:11 · 6860 阅读 · 3 评论 -
【论文+App试玩+图像到视频】2311.Animate-anyone:上传1张图片为任何人制作动画(用于角色动画的一致且可控的图像到视频合成)(暂未开源)
角色动画(Character Animation)是指在通过驱动信号从静止图像中生成角色视频。图片到视频的难点在于:保持角色详细信息的一致性diffusion模型的生成与可控能力,但是之前的方法效果不稳定。原创 2024-01-24 18:36:19 · 2226 阅读 · 0 评论 -
【论文+视频控制】23.08.DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08在stable video diffusion开源模型)
中国科学技术大学+微软亚洲研究院 在 NUWA多模态模型、 Stable Video Diffusion 、UniMatch基础上提出的可控视频合成方法。提出了同时(simultaneously )引入文本、图像和轨迹信息,从**语义(semantic)、空间(spatial)和时间角度(temporal perspectives)**原创 2024-01-23 19:12:41 · 1480 阅读 · 0 评论 -
【老照片上色+在线运行】DDColor:阿里黑白图像上色模型(2022.12提出)
DDColor 是最新的 SOTA 图像上色算法,能够对输入的黑白图像生成自然生动的彩色结果。算法使用 UNet 结构的骨干网络和图像解码器分别实现图像特征提取和特征图上采样,并利用 Transformer 结构的颜色解码器完成基于视觉语义的颜色查询,最终聚合输出彩色通道预测结果。原创 2024-01-23 15:40:55 · 3413 阅读 · 3 评论 -
【AIGC应用+电商+在线运行】阿里ReplaceAnything可进行图片任意部分替换(人体替换、服装替换、物体替换、背景替换)(24.01.11发布demo,暂无论文)
阿里巴巴团队提出了整体或者局部替换框架,人体替换、服装替换、物体替换、以及背景替换(渲染)。原创 2024-01-22 11:02:36 · 1194 阅读 · 0 评论 -
【AI绘画+本地部署】基于krita的AI绘画(含windows一键整合包)
IP-Adapter。原创 2024-01-19 18:05:21 · 18482 阅读 · 10 评论 -
【论文+demo】小红书提出个性化真实人像生成方法(2024.01.15发布,声称效果好于PhotoMaker)
本文的主要内容是介绍了一种名为InstantID的零样本身份保留生成方法,它可以在只有一个面部图像的情况下生成保留身份细节的个性化图像。这种方法通过引入一个轻量级的适配器模块和一个身份网络来实现强大的身份控制和面部细节保留。实验结果表明,InstantID在保持原始模型的文本编辑能力的同时,能够有效地保留身份细节,具有出色的性能和效率。原创 2024-01-18 18:15:54 · 2338 阅读 · 0 评论 -
【论文+在线运行】AnyText:能准确写汉字的AI绘图工具
是一个基于扩散模型的(diffusion-based)`多语言`(multilingual)视觉文字(visual text)`生成和编辑`的模型, 专注于在图像中渲染`准确和连贯`(accurate and coherent)的文本。生成图片同时,在指定位置生成中文、英文、日文等,还可对已有图片进行编辑原创 2024-01-03 17:14:42 · 3665 阅读 · 0 评论 -
【大模型+编程助手】国内编程助手安装与使用(CodeGeeX,Baidu Comate)
百度、清华的代码助手安装与使用原创 2024-01-03 17:10:08 · 3933 阅读 · 1 评论 -
【API调用gpt-4 (vision-preview)】基于微软的Azure OpenAI API
微软的Azure页面 : https://learn.microsoft.com/zh-cn/azure/ai-services/openai/concepts/models调用代码:https://learn.microsoft.com/zh-cn/azure/ai-services/openai/how-to/switching-endpointsopenai说明: https://platform.openai.com/docs/guides/vision不同区域的服务器开通不同模型原创 2024-01-02 19:26:38 · 8890 阅读 · 9 评论 -
【在线AI绘画平台】哩布AI 在线生成图片、训练Lora、上传AI生成图简易实测
在哩布AI试用 在线生成图片、训练Lora、上传AI生成图https://www.liblib.ai/原创 2023-11-27 17:04:47 · 15747 阅读 · 1 评论 -
【论文】2102.DALL-E: Zero-Shot Text-to-Image Generation(文字生成各种各样充满想象图像的开端)
DALL-E通过120亿参数的模型,在2.5亿图像文本对上训练完成。它是一个两阶段的模型:它的第一个阶段是离散变分自编码器(Discrete Variance Auto-Encoder,dVAE),用于生成图像的token。它的第二个阶段是混合了图像和文本特征的,以Transformer为基础的生成模型原创 2023-08-28 18:13:11 · 1184 阅读 · 0 评论 -
【论文】2307.SDXL:Improving Latent Diffusion Models for High-Resolution Image Synthesis (已开源,有UI)
1.SDXL在用户偏好效果方面似乎大大**超过了v1.5和v2.1,甚至与并列!!2.SDXL很大(2.6B Unet 参) --> 比以前的SD更慢+更多的VRAM3.两个CLIP txt-encoders,而不是一个调节向量串联,拥有更好的文本图片对齐(更听话)4.略有改进的VAE5.处理低分辨率训练图像(以图像尺寸为条件的模型)、随机裁剪(以裁剪位置为条件的模型)和非方形图像(以长宽比为条件的模型)的更好方法。原创 2023-07-10 14:45:20 · 2621 阅读 · 0 评论 -
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)
中文英文模型,GPT-4性能是当着无愧的王者,但无法使用。`中文评测平台`榜单比较混乱,看个人使用习惯。原创 2023-06-27 15:18:14 · 19121 阅读 · 0 评论 -
stable-diffusion-webui的介绍与使用——Controlnet1.1
controlnet1.1的使用原创 2023-06-17 17:19:51 · 4278 阅读 · 1 评论 -
【stable diffusion】图片批量自动打标签、标签批量修改(BLIP、wd14)用于训练SD或者LORA模型
对自己图片,自动化进行文字描述,用于训练stable-diffusion的自己的模型的大模型、训练LORA模型的数据准备原创 2023-06-12 18:11:30 · 31223 阅读 · 0 评论 -
【图像分割】SAM:Segment Anything论文学习V1
一个重量级的()图像编码器输出一个图像的特征编码,可以通过各种输入提示(a variety of inputprompts)高效地查询,以实现分割目标掩码,并以摊销的实时速度进行处理。对于与多个对象对应的模糊提示,SAM可以输出多个有效的掩码,并附带置信度得分。备注(·图像嵌入 image embedding是指将图像转换为固定长度高纬向量表示的过程。它是通过将图像输入到深度神经网络中的图像编码器(imageencoder)来实现的。原创 2023-05-30 12:33:42 · 2049 阅读 · 0 评论
分享