优雅谈大模型：揭开计算机视觉任务神秘面纱

庞德公

已于 2024-07-06 16:37:02 修改

阅读量979

点赞数 8

分类专栏：初识大模型文章标签：计算机视觉人工智能

于 2024-07-06 16:34:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Janexjy/article/details/140231615

版权

人工智能在第四次工业革命发挥着至关重要的作用，它广泛的融入日常生活，例如Google助手、Siri、智能手机摄像头、社交媒体过滤器、自动标记、医疗成像、导航等，所有这些技术都切实的改进和增强日常活动的便利性和习惯。

大模型技术发展到现在已经趋于稳定，而加入视觉的多模态大模型才开始兴起，它除了日常生活，还会广泛的融入到工业智造、无人驾驶和机器人等领域。这里计算机视觉就十分重要，它在捕获实时图像、提炼知识以及自主预测和分类图像方面是都不断地进步。计算机视觉使计算机能够解释和检测图像中的模式，其主要目的是复制人类视觉系统处理、分析和理解视觉数据的能力。

一般而言，计算机视觉任务可以进一步分为四个更广泛的类别： 1. 物体检测，2. 图像分类，3. 语义分割，4. 实例分割。

第一幅图为语义分割任务，就是将草，猫，树和蓝天隔开。第二幅图展示了图像分类，判断画面中是什么物体。第三幅图将画面中的物体都一一识别出来。第四幅图将这些物体的轮廓做出分离提炼。

物体检测涉及使用图像或视频检测和定位感兴趣的对象。它使用带有相应类标签的对象周围的边界框，目标是精确定位对象并相应地对它们进行分类。随着深度学习模型的出现，例如基于区域的卷积神经网络、更快的R-CNN、YOLO正在用于这项任务。真实世界的例子包括自动驾驶汽车，用于识别和跟踪交通科学车辆和现实生活中的障碍物。

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。