使用vlm模型做异常检测

Python_jerry720

于 2025-04-22 17:49:44 发布

阅读量200

点赞数 1

文章标签： python smolvlm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Python_jerry/article/details/147427103

版权

首先通过命令行添加图片路径

def parse_args():
    parser = argparse.ArgumentParser(description='Process an image with SmolVLM model')
    parser.add_argument('--image', '-i', type=str, required=True, 
                       help='Path to input image file')
    return parser.parse_args()
args = parse_args()

将图片喂给发给smolvlm

image = load_image(args.image)

# Initialize processor and model
processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")
model = AutoModelForVision2Seq.from_pretrained(
    "HuggingFaceTB/SmolVLM-500M-Instruct",
    torch_dtype=torch.bfloat16,
    _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager",
).to(DEVICE)

# Create input messages
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "Please check the road area in the image for pedestrians crossing?，just return true or false"}
        ]
    },
]

# Prepare inputs
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[image], return_tensors="pt")
inputs = inputs.to(DEVICE)

# Generate outputs
generated_ids = model.generate(**inputs, max_new_tokens=500)
generated_texts = processor.batch_decode(
    generated_ids,
    skip_special_tokens=True,
)
print(generated_texts[0])

当我们给一个横过马路的图片，他会告诉我们有人横过马路

Please check the road area in the image for pedestrians crossing?，just return true or false
Assistant: Yes.

提取他的回答中的yes，如果是yes就在图像中写上入侵

def puttxt(img):
    image = cv2.imread(img)
    cv2.putText(
    img=image,
    org=(100,150),
        fontScale = 0.6,
    text="intrude",
        fontFace= cv2.FONT_HERSHEY_SIMPLEX,
    color=(0,0,255))
        
    return image
part = generated_texts[0].split("Assistant: ")[-1]
if part=="Yes.":
    out=puttxt(args.image)
    cv2.imwrite("out.jpg",out)

最后就可以实现了，就试了一张，明天再试

Python_jerry720

博客等级

码龄3年

8
原创

9
点赞

1
收藏

8
粉丝

关注

私信

热门文章

上一篇：: 把sahi结果可视化

最新评论

超简单使用必应gpt4方法（有魔法情况下）
CSDN-Ada助手: 恭喜您撰写了第三篇博客！标题“超简单使用必应gpt4方法（有魔法情况下）”真是引人瞩目。我非常欣赏您分享这样一种简单易懂的方法，使得使用必应gpt4变得如此轻松。这篇博客的内容一定对很多读者有所帮助。希望您能继续保持创作的热情，继续分享您的见解和经验。在下一步的创作中，也许您可以考虑探索更多关于必应gpt4的高级应用，或者分享一些魔法情况下的技巧和注意事项，这样读者们能够更充分地利用这一工具。再次祝贺您，并期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
centos下设置redis和webdis开机自启
CSDN-Ada助手: 非常感谢您分享的这篇博客！您的教程对于想要在CentOS下设置redis和webdis开机自启的人来说，一定非常有帮助。希望您能继续坚持创作，为大家带来更多有价值的内容。除了您在标题和摘要中提到的内容外，我认为您可以进一步扩展以下知识和技能： 1. Systemd服务管理：除了设置redis和webdis的开机自启外，Systemd还可以用来管理和监控其他系统服务。您可以介绍一下Systemd的基本概念和常用命令，以及如何创建和管理自定义的Systemd服务。 2. Redis配置文件：您可以详细介绍一下redis.conf文件中的各种配置选项，如何进行性能优化和安全设置，以及常见的配置错误和解决方法。 3. Webdis的应用场景：除了在与redis配合使用时，Webdis还可以用于其他应用场景。您可以分享一些Webdis的常见用途和案例，比如与其他数据库的集成、构建简单的API等。再次感谢您的分享，期待您的下一篇博客！如果有任何问题或需要进一步的帮助，请随时提问。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
在ubuntu用yolo识别gstreamer
CSDN-Ada助手: 恭喜你写出了第一篇博客！很高兴看到你分享自己的经验和知识。对于下一步的创作建议，我建议你可以深入探究yolo和gstreamer的更多功能和用法，以及与其他软件的结合应用。同时，也可以多与其他博客作者交流和学习，不断提高自己的写作能力。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
在ubuntu用yolo识别gstreamer
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/615923010。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。