《图像语义分析》学习笔记 (一)

第一章 图像语义分析的基本概念

图像语义,就是图像内容的含义。图像语义可以通过语言来表达,包括自然语言和符号语言(数学语言)。但图像语义并不限于自然语言,其外延对应于人类视觉系统对于图像的所有理解方式。图像语义分析是对图像和图像语义之间的关系进行分析的过程,一般依据已知图像和相应的图像语义的数据库有进行研究,图像和图像语义都可以作为该过程的输入。图像语义分析是模拟人类的认知过程,分析图像中能被人类认知到的含义。图像语义分析的内容主要包括语义体系的构建、图像语义标注、场景分析与理解、图像语义推理等。

图像语义分析的研究方法:

主要分为两种,基于分类的方法(判别模型),基于概率的方法(生成模型)。

判别模型常使用贝叶斯分类器或支持向量机分类器,判别模型还包括人工神经网络。误差反向传播算法(error back propagation, BP)是经典的神经网络训练算法,它的出现掀起了基于统计模型的机器学习的热潮。BP 算法不适于训练具有多隐层单元的深度网络结构,而且由于需要人工构造样本特征不仅需要使用者投入大量的人力物力,还要求使用者对实际问题具有良好的把握,所以该方法的应用面受到限制,其也被称为浅层学习模型。与浅层学习明显不同的深度学习是近年来机器学习研究中最受关注的一个热点,其动机在于模拟、建立人脑进行分析学习的深度神经网络,它模仿人脑的机制来解释图像、声音和文本等数据。它通过将低层的特征组合起来形成更高层的表示,从而发现数据的分布式特征表示。与人工规则构造特征的方法相比,利用大数据来学习特征,刻画数据所示丰富内在信息的能力更强。而且,深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,展现出了强大的从少数样本集中学习数据集本质特征的能力。

生成模型通过建立图像与标签之间的概率相关模型进行图像语义分析。一种具有普遍性的语义分类方法,可同时处理目标图像中的多个词汇分类。该方法中,用直方图偶表征图像,一半直方图描述适合图像内容的词汇计数,另一半直方图描述相对于适合图像内容的词汇计数的通用词汇计数。基于概率的图像标注算法,例如,概率潜在语义分析,是一种基于概率的潜在语义分析算法,其基本原理是通过奇异值分解,将文本投影到低维的潜在语义空间中,便可有效地缩小问题的规模。另外,基于相关模型的方法通过构建低层图像特征和图像语义之间的不同相关模型来进行图像语义分析,如跨媒体相关模型(cross-media relevance model, CMRM)、多伯努利相关模型、双跨媒体相关模型等。

图像语义分析的应用

图像语义分析是图像识别、图像标注和图像检索等技术的核心。图像识别技术用于工业机器视觉、光学字符识别、人脸识别和近年兴起的辅助环境感知等。图像标注和图像检索技术一般基于大规模的图像数据库,如基于内容的图像检索(content based image retrieval, CBIR)、基于语义的图像检索(semantics based image retrieval, SBIR)和视频检索等。 

(1)目标识别和解释,应用图像语义分析技术,利用大规模的人脸数据库来提高识别的精度;

(2)基于内容的图像和视频检索;

(3)辅助环境感知,目前辅助环境感知是图像语义分析的前沿应用领域,如汽车的自动驾驶、电子导盲等。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值