AI视觉模型（笔记）

2301_80140029

于 2024-08-03 09:32:59 发布

阅读量609

点赞数 27

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80140029/article/details/140884744

版权

使用人工智能技术来理解和解释视觉数据（如图片和视频）的算法和模型。这些模型能够识别、分类、定位、检测和分析图像中的物体、场景和活动。

数据集:AI视觉模型需要大量的标准数据进行训练，非常看重数据集的质量

训练过程：数据预处理、模型构建、模型训练、模型评估和调优

原理：基于深度学习和神经网络技术，通过训练大量数据自动提取特征，实现图像识别、目标检测等功能

具有高准确度，高效率和自适应等特点

通过数据集和训练过程，AI视觉模型形成了以卷积神经网络、transformer为核心代表、最新研究mamba的图像特征提取方法，实现对图像的理解，完成图像分类识别，图像增强修复，图像分割等下游任务（利用已经训练好的模型来解决具体问题的过程）

通过图像分割理解AI视觉模型

图像分割：将图像中的每个像素分配到不同的类别或对象上

分割任务分类：1.语义分割：按类别划分图像区域（车）

2.实例分割：区分同类别的不同实体（第几辆车）

3.全景分割：结合以上两种，每个像素既要分配一个类别标签也要区分不同实例

交互式分割：无需事先注释，但需要用户逐步指导实现分割；初始输入如点、笔画或边界框；迭代算法优化分割效果

自动分割：允许提前定义特定对象类别；需要大量的手动注释对象来训练；仅能实现对提前定义特定类别进行分割

U-Net：为医学图像设计，通过独特的对称结构和跳跃连接，提高分割的准确率

注意力机制和Transformer:更好处理复杂的场景

神经网络

连接是神经元最重要的东西

随着网络的层数增加，每一层对于前一层次的抽象表示更深入。在神经网络中，每一层神经元学习到的是前一层神经元值的更抽象的表示。
第一个隐藏层学习到的是"边缘”的特征·

第二个隐藏层学习到的是由'边缘"组成的"形状”的特征

第三个隐藏层学习到的是由"形状"组成的“图案”的特征最后的隐藏层学习到的是由“图案"组成的"目标"的特征通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力

卷积神经网络：只改变图像深度不改变图像大小

解决了1.图像需要处理的数据量太大，导致成本高效率低

2.图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高：位置可变

卷积层：提取图像特征

池化层：降低数据维度

全连接层：拉成一维向量，得到结果

填充边缘，不填充边缘

池化：均值池化是对所有特征点求平均值

最大值池化是对特征点的求最大值

随机池化则介于两者之间，通过对像素点按数值大小赋予概率，再按照概率进行亚采样，在平均意义上，与均值采样近似，在局部意义上，则服从最大值采样的准则。

卷积神经网络的优势在于局部感知和参数共享，可以减少模型所需参数数量，提高计算效率，并通过反向传播和梯度下降优化训练速度

Transformer

缺少归纳偏置

vit通过使用基于补丁的方法，将图像分割成更小的补丁，并通过转换器架构对它们进行处理，从而克服了其中的一些限制。这种方法使模型能够有效地处理人规模图像数据并获得最先进的结果。

多头自注意力机制

应用到图像领域主要有两大挑战
1.视觉实体变化大，在不同场景下视觉Transformer性能未必很好图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大

Swing Transformer进一步优化了Vision Transformer，将注意力计算限制在每个窗口，降低了计算复杂度，并增强了模型的性能。文章还提到了大型数据集的可用性、硬件能力的改进、算法创新以及预训练模型的广泛使用等因素的重要性。

mamba模型

1.选择性状态空间模型

关注或忽略特定的输入，可以过滤掉与问题无关的信息

2.硬件感知的设计：并行扫描且借鉴Flash Attention

SAM模型

可提示，零样本，不需要训练就可以得到结果，直接分割

半监督，弱监督，自监督

自监督学习利用无标签数据进行训练。数据量不足、数据质量差、数据标注困难和数据安全等问题仍存在。算法公平性、模型性能提升和实时处理也是挑战。

关注

27
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
AI视觉模型（笔记）

文章还提到了大型数据集的可用性、硬件能力的改进、算法创新以及预训练模型的广泛使用等因素的重要性。通过数据集和训练过程，AI视觉模型形成了以卷积神经网络、transformer为核心代表、最新研究mamba的图像特征提取方法，实现对图像的理解，完成图像分类识别，图像增强修复，图像分割等下游任务（利用已经训练好的模型来解决具体问题的过程）第三个隐藏层学习到的是由"形状"组成的“图案”的特征最后的隐藏层学习到的是由“图案"组成的"目标"的特征通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。
复制链接

扫一扫

2301_80140029 CSDN认证博客专家 CSDN认证企业博客

码龄1年

8: 原创

124万+: 周排名

10万+: 总排名

2355: 访问

: 等级

161: 积分

48: 粉丝

80: 获赞

1: 评论

29: 收藏

私信

关注

热门文章

最新评论

python笔记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。