自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 交互式3D展示的图文融合与视觉优化 创作平台 ——PosterCraft4

根据选中视角图像生成3d。

2024-06-24 01:05:38 156

原创 交互式3D展示的图文融合与视觉优化 创作平台 ——PosterCraft3

2024-06-24 01:02:43 95

原创 交互式3D展示的图文融合与视觉优化 创作平台 ——PosterCraft2

pipeline2的前端。

2024-06-24 00:57:14 91

原创 图像重绘输出细节增强pipeline总结

工作流主要包括包括图像编码和解码、深度估计、图像细节转移、混合和增强等步骤。使用 VAE 将输入图像编码为潜在空间表示。这是一个压缩过程,将高维图像数据转换为低维潜在表示。输入: 图像输出: 潜在表示 (LATENT)使用 VAE 将潜在表示解码回图像。这是一个解压缩过程,将低维潜在表示转换回高维图像数据。输入: 潜在表示 (LATENT)输出: 图像使用深度估计模型估计图像的深度信息。这一步有助于了解图像中每个像素的深度,提供三维信息。输入: 图像输出: 深度图 (IMAGE)

2024-06-23 20:38:08 911

原创 深入理解和实现 ControlNet:easyControlnet 类详解

如果提示中有之前的控制网络,检查缓存中是否已有该网络,如果有则使用缓存中的网络,否则创建新的控制网络,并设置提示信息、强度和百分比范围。# 如果提示中有之前的控制网络,检查缓存中是否已有该网络,如果有则使用缓存中的网络,否则创建新的控制网络,并设置提示信息、强度和百分比范围。# 定义 apply 方法,处理 ControlNet 应用逻辑,接受多个参数,包括控制网络名称、图像、正向和负向提示、强度等。# 如果正向提示中有之前的控制网络,将其设置为前一个控制网络。# 将当前控制网络设置为提示中的控制网络。

2024-06-23 20:13:33 785

原创 图像混合方法

这个 `ImageBlend` 类主要用于在图像处理工作流中,将背景图像和图层图像根据指定的混合模式和透明度进行混合,并返回合成后的图像。通过详细注释每段代码,可以更清晰地理解每一步的具体作用和处理逻辑。

2024-06-23 19:50:37 544

原创 图像重绘输出

主要步骤和功能 定义类和初始化:apply 方法:加载控制网络:处理掩码:生成控制提示:处理正向提示:处理正向和负向提示:返回结果:这个类的主要作用是根据给定的图像和提示信息应用 ControlNet,以实现特定的图像处理任务。它可以与大模型(如预训练的 ControlNet 模型)一起使用,以增强和调整图像生成过程。主要步骤和功能 类定义和初始化:初始化方法:获取图像嵌入:获取人脸识别增强型图像嵌入:这个类的主要作用是根据不同的配置和输入,使用相应的图像投影模型生成图像嵌入,适用于图像生

2024-06-23 13:59:17 400

原创 图像细节调整

主要步骤和功能 定义输入类型:类别和返回类型:组合方法:总的来说, 类的作用是通过不同的操作类型,将源掩码与目标掩码进行组合,生成新的掩码。这个类可以集成到如图像处理或掩码操作的系统中,提供灵活的掩码合成功能。 定义输入类型:定义返回类型:掩码模糊方法:这个类的主要作用是对输入的掩码图像应用高斯模糊处理,适用于需要平滑或模糊处理掩码图像的场景。 主要步骤和功能 定义输入类型:定义返回类型:图像细节转移方法:这个类的主要作用是通过各种图像混合模式和参数设置,实现图像的细节转移和混合处

2024-06-23 13:03:41 753

原创 使模型输出xml数据

其中,上下文示例选择就是在问题之外给模型提供n个样例,这样模型的输出就和样例一致。实现一个函数 `generate_poster_layout`,它会调用模型生成海报布局,并分别截取 `<positions>` 和 `<texts>` 部分的内容。最后,我们调用 `generate_poster_layout` 函数生成海报布局,并分别输出 `<positions>` 和 `<texts>` 部分的内容。输入:1.png: 产品图 2.png: 图标 3.png: 另一个图标。实现海报布局生成函数。

2024-06-18 15:51:47 426

原创 使用 Dashscope 和通义千问进行多模态对话和图像识别

在这个示例中,`simple_multimodal_conversation_call` 函数接收图片 URL 和用户问题,调用 Dashscope 的 `qwen-vl-plus` 模型,处理响应并输出结果。在这个示例中,`call_with_messages` 函数定义了一系列消息,通过 `qwen_turbo` 模型生成描述。在这个示例中,`sample_sync_call_streaming` 函数生成一个逐字输出的文本流,可以用于实时显示生成内容。此示例展示了如何处理多个图像并生成相应的描述。

2024-05-31 14:54:17 994

原创 layout生成之pipeline

接收seg-image传入llm生成海报标语 根据prompt生成layout XML格式的布局指导 包括seg-image,icon,标语的摆放位置和大小,字体字号颜色选择和位置。根据image生成icon和bg的prompt 传入SDXL ,XML文件和和image,icon,bg输入给下一个模块。

2024-05-30 19:41:13 84

原创 layout生成之模型部署

2.有想过先用图片转文字的模型+再加prompt发送 但后来发现有支持图片输入的模型。prompt_text = '用萝卜、土豆、茄子做饭,给我个菜谱。# 如果文本段落中存在换行符,则更新head_idx的值。1.现在选用的模型如下 多模态输入支持一张图片 从网络上下载图片。# 调用sample_sync_call_streaming函数。之前准备用chatgpt的接口 但花钱 先用通义千问测试。# 获取每个响应中的文本段落。# 打印文本段落中对应的文本。# 设置需要生成的指令。4.一个字一个字输出。

2024-05-30 18:23:38 363

原创 layout生成

构造一个系统提示,详细说明如何生成图像布局的指令,包括布局的 CSS 样式和尺寸限制,其中。初始化为包含标题和布局关键字的格式化字符串,即在提示文本后开始一个新的布局描述。计算系统提示和用户输入提示的总长度,用于确保生成的提示不会超过模型的输入长度限制。字符串追加格式化文本,描述每个对象的类别和其在画布上的具体位置和大小。的一个子类,定义了自定义的停止条件,用于文本生成过程。中,角色为 'system',内容是之前创建的。后转换为整数,得到在画布上的具体位置。中的每个对象,每个对象的信息存储在。

2024-04-24 17:35:23 154

原创 layout生成之构想

整体提示设计。图2中的每个模块都从一个语言模型中获取信息,并将其转换为最终布局中包含的元素。概述任务的上下文和目标;指定了输出的预期结构和类型;一个具体的例子,以帮助LLM理解任务。图2的蓝色对话框中的文本表示简化提示2的示例。LLM对这些提示的高级响应经过后处理,然后用作模块的输入参数,以生成场景的低级规范。在地板模块中的LLM输出中,为每个房间提供了以下详细信息:房间类型:房间的名称,如厨房、卧室。•地板材料:对地板外观的描述。•墙材料:对墙的外观的描述。

2024-04-14 23:12:02 918 1

原创 交互式3D展示的图文融合与视觉优化 创作平台 ——PosterCraft

8.读取xml布局信息拼合图片并生成文字:输入图片和mask,用mask把每一张图片抠出,接着输入背景图片,根据背景图片大小和xml中图片布局信息把抠出来的图片摆放到对应位置生成新的总的前景图片。输入前景和背景图片进行图像和谐化,然后读取文字相关的布局信息,把文字按要求显示到和谐化后图片对应的位置上生成最终海报。5.接收seg-image传入llm生成海报标语 根据prompt生成layout XML格式的布局指导 包括seg-image,icon,标语的摆放位置和大小,字体字号颜色选择和位置。

2024-04-08 16:29:38 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除