面向图像分析应用的海量样本过滤方案

面向图像分析应用的海量样本过滤方案

多重过滤的技术方案,其具体流程如下:

  1. 图像去重:去除重复图像及极相似图像;
  2. 常见噪声图像过滤:过滤掉人脸、包装、发票等无关的常见类型噪声图像;
  3. 基于聚类的样本挑选:在深度特征空间上进行聚类,选取合适的聚类作为目标样本,并将其他聚类作为噪声图像去除;
  4. 基于分类的样本筛选:利用分类器返回的置信度来评估样本与相应类别的相关度,进一步筛选样本。

图像去重及常见噪声图像过滤

待选样本集里含有较多的重复图像或极相似图像,可以通过不同的方式去重:提取图像的直方图特征向量,利用特征向量之间的相似性进行去重;或者构建一个哈希表,提取图像的简单颜色和纹理特征,对特征量化后利用哈希表进行查询,能够查询到的就是重复或极相似图像,查询不到的加入表中。前一种方法对于微小差异表现更好,后一种方法的计算性能优势明显。

待选样本集里往往会含有一些常见的噪声图像模式,比如人脸、纸箱外包装、发票、聊天纪录图、商品或店铺Logo图等,占有相当高的比例。对于这些常见噪声图像,先提取其HOG特征,并用提前训练好的SVM分类器对其进行分类。为了保证精度,对于不同类的噪声图像,分别训练1vN的SVM分类器,只要图像判别为其中任一类噪声图像,即将其筛出。

以上两步,只利用了图像的简单特征,只能够去除样本集里的重复图像和常见噪声图像,对于更复杂的噪声图像模式,需要利用更有效的图像特征,并对于复杂类别采用无监督聚类来挖掘。

基于聚类的样本挑选

要利用图像本身的丰富信息对其进行聚类,首先需要提取更为丰富的图像特征。因此可利用深度网络模型来提取图像特征,得到的特征融合了常见的图像基本特征,并包含了更为高阶的图像语义信息,具有更强的表现能力。这里借助在Imagenet数据集上训练得到的网络模型,并利用已有的样本集进行fine-tune,这样模型对于特定品类的表达能力得到增强。这里对于一个图像样本,通过深度网络得到的特征是1024维向量,进一步通过PCA降维成256维的特征向量。这样图像样本集就构成了一个特征数据空间。

接下来,在降维后的特征数据空间,利用一种基于密度的聚类算法进行聚类。该算法最突出的特点采用了一种新颖的聚类中心选择方法,其准则可描述为:

  • 聚类中心附近的点密度很大,且其密度大于其任何邻居点的密度;
  • 聚类中心和点密度比它更大的数据点,它们的距离是比较大的。
  • 选择了合适的聚类中心之后,再将各数据点分类到离其最近的聚类上,并根据各点距离相应聚类中心的远近,把它们划分成核心数据点和边缘数据点。

该聚类算法思路简单,效率较高,并且对于不同的场景具有较好的鲁棒性。

在所得的聚类结果中,进一步选出密度较大且半径较为紧凑的聚类,其中的样本作为待选的目标样本数据,而其他聚类对应的样本则作为噪声样本予以筛除。

基于分类的样本筛选

以上聚类所得的目标样本中,可能还含有少数的不相关样本,需要进一步的筛选。这里利用分类器的置信度评估样本的类别相关度,其中与所属类别不相关或弱相关的样本可以进一步去除。

具体方法是从目标样本中随机可放回的选取若干样本,并打上新的类别标签,作为新的训练样本,对一个已有的卷积神经网络模型进行fine-tune,这个卷积神经网络模型与前面提取特征的网络模型必须有一定差异(模型结构和训练数据都不同)。利用这个新的模型,对目标样本进行识别,得到其类别置信度。如果某个样本在所属类别上置信度很低,则将该样本作为不相关样本予以筛除。

经过以上筛选之后,最终得到的目标样本经过人工简单校验,就可以作为高质量样本集用于训练和测试。

转载链接

https://www.51cto.com/article/543401.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值