项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐
项目目标:
本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
内置推荐算法可以自动根据分割结果,推荐与之相关的信息。
一、第十一周随小组所完成的任务
1.修复部分bug:
- 当点击侧边栏中的其他栏目切换界面后,再返回视频界面时,之前上传的视频不再显示。通过改变视频链接的初始化方式,修复了这个bug。
- 在Analyze板块中,如果在未进行分析的情况下点击推荐,会提示错误,但图片加载遮罩仍会显示。通过修复遮罩判断位置,解决了这个bug。
- 经过多次点击或框选分割后,有时会发现全分割失效的情况。通过修改全分割的响应逻辑,不再依赖内部变量isEverything是否为true,而是直接检查store中存储的everything,以提高响应的准确性。这不仅减少了全分割图片的渲染时间,也优化了用户体验。
- 在上传新图片或点击快速体验界面中的图片后,Analyze板块中的图片分析和Generate板块生成的图片都没有更新。通过在切换新图片后,将store中的description设置为空串,解决了Analyze中description不更新的问题;同时,为Generate板块中生成的图片的URL加上时间戳,解决了图片不更新的问题。
2.添加新功能:
- 在Analyze板块推荐的图片添加了图片查看功能,以及在对图片分析时可以自行选择效果不同的分析模式。
- 添加图片下载功能。
3.进行系统优化:
- 对前端界面进行了优化,将视频模块中视频的上传位置移至侧边栏。
二、第十二周随小组所完成的任务
1.部署运行新的AIGC模型ESRGAN,主要用于提高图像分辨率。
2.添加了可以对分割后的物体图片进行Generate的模块联动
3.修复部分bug:
- 点击analyze和generate等其他功能后,再返回到分割界面时,已经分割的图片不再正确显示。为了解决这个问题,我们将分割后图片的URL保存到存储中,并修改页面中绑定变量的初始化方式。
- 将前端一直显示为“默认用户”的情况调整为登录时的用户名。
三、未来计划
1.继续修复bug、优化系统。
2.将超分辨率模型ESRGAN部署到我们的项目中去。