自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 模型框架修改:编写MTTR和CATR的接口

通过这些步骤,你可以实现对MTTR、CATR模型的核心代码修改,并编写可调用的接口。如果模型需要特定格式的输入,如特征向量或特定形状的张量,确保在处理数据时进行相应的预处理。MTTR和CART模型都没有提供可调用接口,因此对齐核心代码进行了修改同时编写了可调用接口。你需要编写代码来提取视频帧,并将文本转换为模型可处理的格式。4.部署和文档:编写详细的文档,包括如何安装依赖、使用接口、以及示例代码。确保用户可以轻松理解和使用你的接口。2.编写可调用接口:使用类和函数封装模型的调用接口,使其易于使用。

2024-06-23 20:38:27 225

原创 模型框架修改:在CLIP模型的基础上实现帧定位功能

CLIP模型是文本和图像语义对齐的模型,在其基础上实现了视频和文本的跨模态检索功能,即帧定位。2.图像嵌入生成:使用预训练的CLIP模型将每个提取的图像帧转换为图像嵌入。3.文本嵌入生成:同样,使用CLIP模型的文本编码器将查询文本转换为文本嵌入。通过计算查询文本嵌入与所有视频帧嵌入的相似度,可以找到最相关的帧。通过上述步骤,利用CLIP模型的图像和文本对齐能力,可以实现视频和文本的跨模态检索功能,并且可以精确定位到具体的帧。可以选择最高相似度得分对应的帧,或者设定一个阈值,选择所有相似度高于阈值的帧。

2024-06-23 19:36:27 194

原创 模型框架修改:对SAM的具体完善

由于模型规模非常大,所以对参数进行剪枝量化,以便加快架构修改之后的后续训练速度,降低训练成本。通过上述步骤,可以将BERT模型的文本理解能力与SAM模型的图像分割能力结合,实现文本指导的语义分割功能。将图像特征与文本特征结合。可以在SAM模型中增加一个分支,用于处理文本特征,然后将文本特征与图像特征在某一层进行融合。1.静态量化:静态量化在训练后进行,首先需要对模型进行校准,以获取激活值的范围,然后再进行量化。1.全局剪枝:在整个模型范围内,根据权重的绝对值进行排序,剪掉一定比例的最小权重。

2024-06-23 01:51:33 374

原创 项目实训开发过程中的问题解决(3)

本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。在前几周的项目实训课程的项目开发过程中,我主要负责模型架构修改完善的工作,下面我将对遇到的问题和解决方法展开讲解。模型结构复杂性:MTTR模型作为一个复杂的多模态Transformer模型,可能存在过拟合或难以优化的问题,影响了定位性能。模型训练不充分:可能是由于模型训练数据不足或者训练时间不足,导致模型学习能力不足以准确定位物体。

2024-05-30 21:49:11 295

原创 项目实训开发过程中的问题解决(2)

这样可以减少对大量标记数据的需求,提高模型的训练效率。在前几周的项目实训课程的项目开发过程中,我主要负责模型架构修改完善的工作,下面我将对遇到的问题和解决方法展开讲解。主动学习: 可以采用主动学习的方法来选择对模型最有帮助的样本进行标记,从而最大限度地利用有限的标记数据来训练模型。迭代训练: 可以通过迭代训练的方式逐步改进模型,利用模型的预测结果和反馈信息来调整模型,从而逐渐提高模型的性能。分析结果和调整: 根据评估结果,分析模型在训练集和验证集上的表现,识别模型的弱点和需要改进的方面。

2024-05-30 21:01:28 343

原创 项目实训开发过程中的问题解决

遇到的第一个问题是SAM无法处理文本指导下的分割的问题,因为SAM的架构无法有效处理这种情况。模块功能定义:首先,需要明确定义新模块的功能,即接收文本指导的输入,解析指导信息,并根据指导将输入数据进行分割处理。接口设计:新模块需要与SAM系统中的其他模块进行良好的接口设计,以确保信息传递和数据交互的顺畅。确保新模块能够正确地处理文本指导下的分割问题,并与SAM的其他功能协调工作。在前几周的项目实训课程的项目开发过程中,我主要负责模型架构修改完善的工作,下面我将对遇到的问题和解决方法展开讲解。

2024-05-29 23:53:55 363

原创 项目实训第11-12周日志

本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。1.部署运行新的AIGC模型ESRGAN,主要用于提高图像分辨率。2.添加了可以对分割后的物体图片进行Generate的模块联动。基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。2.将超分辨率模型ESRGAN部署到我们的项目中去。可以自动根据分割结果,推荐与之相关的信息。1.继续修复bug、优化系统。

2024-05-29 22:00:33 379

原创 项目实训第10周日志

在用户使用“Analyze”功能时,不是直接进入处理等待,而是用一个界面展示用户上传的图片并对用户进行引导操作,在用户进行分析操作时,会将对图片的分析结果展示出来。本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。“图生图”侧重于根据原始图片的内容进行生成,生成的图片是在原图片的基础上进行改变的,同时,图片分析后生成图片时则是“文生图”。1.处理当前存在的bug,对当前界面的相应逻辑进行进一步的优化。

2024-05-06 00:06:56 305

原创 项目实训第9周日志

在CATR和Stable-Diffusion的基础上 ,对于用户上传的图片,先调用CATR对图片内容进行分析,然后降分析的结果传给Stable-Diffusion,然后Stable-Diffusion会根据此描述生成多张新的图片,生成的文字和图片结果都会在前端显示。本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。对于用户上传的视频,在用户给出一段文本描述的情况下,可以对视频中指定的物体进行追踪。

2024-04-28 21:00:52 260

原创 项目实训6-8周日志

本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。我们扩展了服务器的功能,以支持对本地文件系统的操作。完成了对数据库的远程读写功能,详细过程和代码示例已记录并分享在我的博客中,详见:远程数据库操作记录。通过以上成果,我们现在可以无障碍地调用部署在服务器上的大型模型,完全不受本地计算资源的限制。基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。内置推荐算法可以自动根据分割结果,推荐与之相关的信息。

2024-04-21 23:14:07 775

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除