项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐
项目目标:
本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
内置推荐算法可以自动根据分割结果,推荐与之相关的信息。
一、第十周随小组所完成的任务
1.完实现了“图生图”的功能
采用的模型为Stable-Diffusion,用户可以根据之前上传的图片生成与之相关的图片。
2.对图片分析功能进行了优化
在用户使用“Analyze”功能时,不是直接进入处理等待,而是用一个界面展示用户上传的图片并对用户进行引导操作,在用户进行分析操作时,会将对图片的分析结果展示出来。
二、对于“文生图”和“图生图”的区别的解释
“图生图”侧重于根据原始图片的内容进行生成,生成的图片是在原图片的基础上进行改变的,同时,图片分析后生成图片时则是“文生图”。
三、未来计划
1.处理当前存在的bug,对当前界面的相应逻辑进行进一步的优化。
2.完成视频帧定位的功能的实现。