研究
文章平均质量分 83
记录研究的成果
lylsalt
这个作者很懒,什么都没留下…
展开
-
Grounded-Segment-Anything实现自动文本标注
需要导入YouTube的视频链接,可以选择每秒抽多少帧进行识别,效果方面的话,也是prompt描述偏向一句话会比单个object的效果更好。在数据进行自动标注的阶段,会有一个prompt可以支持输入,如果做的是目标检测工作的话,prompt输入object就可以了。比较局限的就是现在roboflow只支持每个账号每个月1000张图片的自动标注,后续会更新在自己的电脑部署的教程。roboflow的一个数据集的网站,在上面创建数据集和管理数据集非常的方便。可以自定义图片导出的尺寸,还可以支持数据的增强。原创 2024-05-01 13:48:28 · 1700 阅读 · 0 评论 -
关于Segment Anything in High Quality的研究(一)
首先,不管是HQ-SAM还是SAM,它们首先要解决的是图像分割的问题,然后才是HQ-SAM提出的解决分割复杂场景的物体。SAM的自动分割和零样本能力的泛化性是支撑批量分割的基础。它能够减少用户在使用时在分割方面耗费的成本和时间。3.2SAM目前存在的两个问题3.2.1粗糙的掩码边界,忽略了目标结构的分割3.2.2预测不准确,在具有挑战性的场景容易出现错误从左边那幅图我们可以看到,输入由左向右,有point(点)box(框)masktext(文本),还有image(图片)。原创 2024-03-13 22:39:03 · 617 阅读 · 0 评论 -
简单调用智谱API实现场景对话和问答
自从chatGPT发布以来,国内的大语言模型相继发布,有通用的大语言模型,也有一些垂类的模型,后续会研究并发布,比如携程是针对旅游行业、妆舟是美妆行业等等。大语言模型国内有科大的讯飞星火、阿里的通义千问、智谱AI、百度的文心一言等。研究大语言模型也是为了下一步研究多模态打基础和做准备。本文主要是介绍如何调用智谱的API实现场景对话和问答。过程比较简单。原创 2024-02-20 13:54:55 · 677 阅读 · 0 评论 -
细粒度(fine-grained)识别综述
最近在研究细粒度,看了很多文章,想做一个总结。后续会继续补充研究的进展。原创 2023-12-10 00:25:59 · 3843 阅读 · 1 评论 -
HQ-SAM代码复现
代码地址。原创 2024-03-16 15:24:16 · 547 阅读 · 1 评论