项目实训第10周日志

项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐

项目目标:
本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
内置推荐算法可以自动根据分割结果,推荐与之相关的信息。

一、第十周随小组所完成的任务

1.完实现了“图生图”的功能

        采用的模型为Stable-Diffusion,用户可以根据之前上传的图片生成与之相关的图片。

2.对图片分析功能进行了优化

        在用户使用“Analyze”功能时,不是直接进入处理等待,而是用一个界面展示用户上传的图片并对用户进行引导操作,在用户进行分析操作时,会将对图片的分析结果展示出来。

二、对于“文生图”和“图生图”的区别的解释

“图生图”侧重于根据原始图片的内容进行生成,生成的图片是在原图片的基础上进行改变的,同时,图片分析后生成图片时则是“文生图”。

三、未来计划

1.处理当前存在的bug,对当前界面的相应逻辑进行进一步的优化。

2.完成视频帧定位的功能的实现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值