Intermission_OvO-CSDN博客

原创模型框架修改：编写MTTR和CATR的接口

通过这些步骤，你可以实现对MTTR、CATR模型的核心代码修改，并编写可调用的接口。如果模型需要特定格式的输入，如特征向量或特定形状的张量，确保在处理数据时进行相应的预处理。MTTR和CART模型都没有提供可调用接口，因此对齐核心代码进行了修改同时编写了可调用接口。你需要编写代码来提取视频帧，并将文本转换为模型可处理的格式。4.部署和文档：编写详细的文档，包括如何安装依赖、使用接口、以及示例代码。确保用户可以轻松理解和使用你的接口。2.编写可调用接口：使用类和函数封装模型的调用接口，使其易于使用。

2024-06-23 20:38:27 288

原创模型框架修改：在CLIP模型的基础上实现帧定位功能

CLIP模型是文本和图像语义对齐的模型，在其基础上实现了视频和文本的跨模态检索功能，即帧定位。2.图像嵌入生成：使用预训练的CLIP模型将每个提取的图像帧转换为图像嵌入。3.文本嵌入生成：同样，使用CLIP模型的文本编码器将查询文本转换为文本嵌入。通过计算查询文本嵌入与所有视频帧嵌入的相似度，可以找到最相关的帧。通过上述步骤，利用CLIP模型的图像和文本对齐能力，可以实现视频和文本的跨模态检索功能，并且可以精确定位到具体的帧。可以选择最高相似度得分对应的帧，或者设定一个阈值，选择所有相似度高于阈值的帧。

2024-06-23 19:36:27 402

原创模型框架修改：对SAM的具体完善

由于模型规模非常大，所以对参数进行剪枝量化，以便加快架构修改之后的后续训练速度，降低训练成本。通过上述步骤，可以将BERT模型的文本理解能力与SAM模型的图像分割能力结合，实现文本指导的语义分割功能。将图像特征与文本特征结合。可以在SAM模型中增加一个分支，用于处理文本特征，然后将文本特征与图像特征在某一层进行融合。1.静态量化：静态量化在训练后进行，首先需要对模型进行校准，以获取激活值的范围，然后再进行量化。1.全局剪枝：在整个模型范围内，根据权重的绝对值进行排序，剪掉一定比例的最小权重。

2024-06-23 01:51:33 571

原创项目实训开发过程中的问题解决（3）

本项目旨在开发一款跨模态交互式应用，用户可以上传图片或视频，并使用文本、点、框等提示，精确分割出图片或视频中指定的物体，或者无提示地分割出所有物体。在前几周的项目实训课程的项目开发过程中，我主要负责模型架构修改完善的工作，下面我将对遇到的问题和解决方法展开讲解。模型结构复杂性：MTTR模型作为一个复杂的多模态Transformer模型，可能存在过拟合或难以优化的问题，影响了定位性能。模型训练不充分：可能是由于模型训练数据不足或者训练时间不足，导致模型学习能力不足以准确定位物体。

2024-05-30 21:49:11 516

原创项目实训开发过程中的问题解决（2）

这样可以减少对大量标记数据的需求，提高模型的训练效率。在前几周的项目实训课程的项目开发过程中，我主要负责模型架构修改完善的工作，下面我将对遇到的问题和解决方法展开讲解。主动学习：可以采用主动学习的方法来选择对模型最有帮助的样本进行标记，从而最大限度地利用有限的标记数据来训练模型。迭代训练：可以通过迭代训练的方式逐步改进模型，利用模型的预测结果和反馈信息来调整模型，从而逐渐提高模型的性能。分析结果和调整：根据评估结果，分析模型在训练集和验证集上的表现，识别模型的弱点和需要改进的方面。

2024-05-30 21:01:28 425

原创项目实训开发过程中的问题解决

遇到的第一个问题是SAM无法处理文本指导下的分割的问题，因为SAM的架构无法有效处理这种情况。模块功能定义：首先，需要明确定义新模块的功能，即接收文本指导的输入，解析指导信息，并根据指导将输入数据进行分割处理。接口设计：新模块需要与SAM系统中的其他模块进行良好的接口设计，以确保信息传递和数据交互的顺畅。确保新模块能够正确地处理文本指导下的分割问题，并与SAM的其他功能协调工作。在前几周的项目实训课程的项目开发过程中，我主要负责模型架构修改完善的工作，下面我将对遇到的问题和解决方法展开讲解。

2024-05-29 23:53:55 421

原创项目实训第11-12周日志

本项目旨在开发一款跨模态交互式应用，用户可以上传图片或视频，并使用文本、点、框等提示，精确分割出图片或视频中指定的物体，或者无提示地分割出所有物体。1.部署运行新的AIGC模型ESRGAN，主要用于提高图像分辨率。2.添加了可以对分割后的物体图片进行Generate的模块联动。基于分割出的物体，用户可以选择生成感兴趣的其他图片或视频。2.将超分辨率模型ESRGAN部署到我们的项目中去。可以自动根据分割结果，推荐与之相关的信息。1.继续修复bug、优化系统。

2024-05-29 22:00:33 409

原创项目实训第10周日志

在用户使用“Analyze”功能时，不是直接进入处理等待，而是用一个界面展示用户上传的图片并对用户进行引导操作，在用户进行分析操作时，会将对图片的分析结果展示出来。本项目旨在开发一款跨模态交互式应用，用户可以上传图片或视频，并使用文本、点、框等提示，精确分割出图片或视频中指定的物体，或者无提示地分割出所有物体。“图生图”侧重于根据原始图片的内容进行生成，生成的图片是在原图片的基础上进行改变的，同时，图片分析后生成图片时则是“文生图”。1.处理当前存在的bug，对当前界面的相应逻辑进行进一步的优化。

2024-05-06 00:06:56 332

原创项目实训第9周日志

在CATR和Stable-Diffusion的基础上，对于用户上传的图片，先调用CATR对图片内容进行分析，然后降分析的结果传给Stable-Diffusion，然后Stable-Diffusion会根据此描述生成多张新的图片，生成的文字和图片结果都会在前端显示。本项目旨在开发一款跨模态交互式应用，用户可以上传图片或视频，并使用文本、点、框等提示，精确分割出图片或视频中指定的物体，或者无提示地分割出所有物体。对于用户上传的视频，在用户给出一段文本描述的情况下，可以对视频中指定的物体进行追踪。

2024-04-28 21:00:52 286

原创项目实训6-8周日志

本项目旨在开发一款跨模态交互式应用，用户可以上传图片或视频，并使用文本、点、框等提示，精确分割出图片或视频中指定的物体，或者无提示地分割出所有物体。我们扩展了服务器的功能，以支持对本地文件系统的操作。完成了对数据库的远程读写功能，详细过程和代码示例已记录并分享在我的博客中，详见：远程数据库操作记录。通过以上成果，我们现在可以无障碍地调用部署在服务器上的大型模型，完全不受本地计算资源的限制。基于分割出的物体，用户可以选择生成感兴趣的其他图片或视频。内置推荐算法可以自动根据分割结果，推荐与之相关的信息。

2024-04-21 23:14:07 836 1