可以实现类似于Krea中的chat功能,当然Krea中的chat功能本身确实是一个智能体,但是ace相当于自己实现了一套完整的图片生成,显然没有利用flux的能力,是不够好的,看来实现chat能力还是得从智能体这个角度去做切入。
1.Introduction
chatgpt这样的对话语言模型提供了一个统一的框架,通过提示引导的方法来解决各种nlp任务,通过采用统一的输入-输出结构,这些模型可以实现与用户的动态多轮交互,此外,通过利用历史对话的知识,能够以更高的细致度和深度理解复杂的查询。现有的视觉生成基础模型通常仅从纯文本创造图像或视频,这与大多数视觉生成任务(例如可控图像生成或图像编辑)不兼容,因此,特定的视觉生成任务仍然需要基于这些基础模型进行定制调整。构建一个全能视觉生成模型的一大挑战在于多模态输入格式的多样性和支持任务的多样性,设计了一个统一框架,使用dit生成模型,以适应广泛的输入和任务,多轮绘图以及editor,1.分析了大多数视觉生成任务的条件输入,定义了条件单元condition unit,CU,该单元建立了一个统一的输入范式,包括图