Meta发布SAM 2分割图片和视频;CatVTON实现简单高效的虚拟试穿;模拟人类思维的开源深度 AI 搜索引擎框架

✨ 1: SAM 2

Meta发布SAM 2,是一种用于图像和视频的高效实时可提示分割模型。

在这里插入图片描述

SAM 2 (Segment Anything Model 2) 是由Meta的AI研究部门(FAIR)开发的一个基础模型,旨在解决图像和视频中的可提示(promptable)视觉分割问题。与前代模型SAM仅支持静态图像分割不同,SAM 2将图像视为只有一帧的视频,从而扩展了功能,能够处理实时视频分割任务。它采用了简单的Transformer架构,配合流式存储器,实现对视频的实时处理。

此外,SAM 2通过一个模型参与的数据引擎收集了SA-V数据集,这是迄今为止最大的一个视频分割数据集。通过用户交互,这个数据引擎不断改进模型和数据,从而提升了性能。SAM 2在各种任务和视觉领域中表现优异。

SAM 2的使用场景包括(但不限于):

  1. 图像分割:具有与SAM相似的静态图像分割功能。可以通过提供提示(prompts)来分割图像中的对象。

  2. 视频分割和跟踪:能够在视频中进行对象的分割和跟踪。用户可以添加新的提示并立即在相同帧上获取输出,或在视频中传播提示以获取整个视频中的目标掩码(masks)。

这种模型对各种现实应用场景,如自动驾驶、安防监控、视频编辑、医学影像分析等领域,都具有重要的潜在应用价值。

地址:https://github.com/facebookresearch/segment-anything-2

✨ 2: ComfyUI-segment-anything-2

有人在ComfyUI的基础上也推出了类似 SAM 2的功能。

在这里插入图片描述

地址:https://github.com/kijai/ComfyUI-segment-anything-2

✨ 3: CatVTON

CatVTON使用扩散模型实现简单高效的虚拟试穿,网络轻量并支持高分辨率推理。

在这里插入图片描述

CatVTON 是一种简单且高效的虚拟试衣开发模型,利用扩散模型实现虚拟试穿效果。它具有以下特点:轻量级网络(总参数量为899.06M)、参数高效训练(可训练参数49.57M)和简化推理(在1024x768分辨率下仅需不到8G的显存)。

在线服装试穿:通过虚拟试衣功能,用户可以在购买前看到自己穿上不同服装的效果,提高在线购物的体验和满意度。
个性化推荐:在线电商平台可以利用虚拟试衣技术,为用户推荐更适合他们的服装款式和搭配。
服装设计与展示:设计师可以在没有实际制作衣物的情况下,提前看到设计效果,并进行调整和优化。
游戏和虚拟现实:为游戏角色提供虚拟换装效果,提高用户的沉浸体验。

地址:https://github.com/Zheng-Chong/CatVTON

✨ 4: MindSearch

MindSearch 是一个模拟人类思维的开源深度 AI 搜索引擎框架。

在这里插入图片描述

MindSearch是一个开源的AI搜索引擎框架,具备类似Perplexity.ai Pro的性能。用户可以通过使用闭源LLMs(如GPT、Claude)或开源LLMs(如InternLM2.5-7b-chat)来简单地部署自己风格的搜索引擎。其主要特点包括:

全面提问支持:MindSearch旨在解决生活中的各种问题,并使用网络知识进行回答。
深入的知识发现:通过浏览数百个网页,MindSearch提供更深、更广泛的知识基础答案。
详细解决路径:MindSearch公开所有细节,让用户可以查看所有内容,从而大大提高最终回答的可信度和可用性。
优化的UI体验:提供了包括React、Gradio、Streamlit和终端在内的各种接口,用户可以根据需要选择任何一种。
动态图构建过程:MindSearch将用户查询分解为图中的原子子问题节点,并根据WebSearcher的搜索结果逐步扩展图。

地址:https://github.com/InternLM/MindSearch

✨ 5: nanoPerplexityAI

nanoPerplexityAI 是一款简洁直观的开源大语言模型服务PerplexityAI实现工具。

在这里插入图片描述

nanoPerplexityAI是一个简单且直观的开源实现版本,灵感来源于perplexity.ai。perplexity.ai 是一个大型语言模型(LLM)服务,通过谷歌来引用信息。nanoPerplexityAI不涉及复杂的GUI或LLM代理,仅使用100行Python代码即可实现其功能。

功能

获取用户查询
通过谷歌搜索找到相关网页URL并获取文本内容
使用系统提示 + 网页内容 + 用户查询构建提示
调用LLM API生成答案
格式化引用并将LLM答案保存为Markdown文件以供可视化

地址:https://github.com/Yusuke710/nanoPerplexityAI



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

  • 25
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值