1 load 数据
查看类别数量:1103,398个cultures和705个tags。cultures 描述艺术类型和人类智力成就的表现,tags 是为了识别或提供其他信息而贴在某人或者某物上的标签。
一张画会有几个class,查看有1个class,2个class,3个class 等的样本数。
查看多个class 在一起出现的频率。
查看单独的class 出现的频率,最多的有2万次,最少的有1次。
2 查看图像的形状,RGB 像素,像素的边界检测,强度直方图,目标变量的相关性。
总结:(1)有的图片很长,数据集很不平衡,有90%的图片的标签少于5个。有很多相似的标签(比如:men,women,portraits【画像】,human figtures ),RGB 像素统计(不同均值的正太分布)
(2)长宽跨度比较大,宽度约300-5000,高度约300-7000.
(3)这些很高的一般是笛子越强,或者簪子,毛笔,很宽的是布条花边,说明预处理的时候需要把它们取一部分,而不是变成一个正方形。
(4)数据不平衡:前20的标签类型culture只占了0.72%,tag 只占了1.83%,换句话说大多数标签是非常罕见的。
cultures :西方文化是最常见的文化标签,还有英国伦敦,法国巴黎,土耳其,威尼斯。抽象,描述一种艺术风格。
tags: 男人,女人和花,人像,肖像,简介,直接,从图像中看到的东西。
处理相似的标签是很重要的:有两个方法:使用word2vec 来表示vocab,并检查其与其他标签的余弦相似性。
使用训练集的排列矩阵,看看是否有任何一组的标签一起出现
90%的图片都有2-5 个类别,100%的范围在1-11 个类别,里面的culture个数范围在0-4 之间,tag 的范围在0-9 之间,
建模用CNN。
像素统计:rgb 通道,分别代表了红色,绿色和蓝色通道。像素值从0到255。提取并可视化了各色通道的平均偏差和标准偏差。
正太分布。
边缘特性:在传统的视觉领域,图像的边缘检测对识别形状和图案很重要,可以看到物种的轮廓和不同的几何特征。
KDE plot : 核密度估计
KDE 图显示了所有3个通道的边缘的像素值的平均值和标准差几乎是相同的。
文化属性的数量分布与tag的数量分布有差异,99%的图片的culture 的个数在0,1,2个之间,80% 是1,在另一方面,tag的数量在1-5 之间,没有tag的图片非常少。
像瓶子和碗这些有几个culture 的标签:英国,伦敦,
古画一般会包含几个tag的标签:男人,女人,花,鸟
culture 的种类一般包括:动物,人类,地方
tag 包括:杯子,纹章,纺织品,盘子,葡萄藤,
特殊的场景:诞生,受难,最后受难。
动作:骑马,阅读,受难
tag的数量越多,图片越复杂,大多数有一个的都是单一品,比如观赏品,有5个标签属性的艺术品都是设计复杂的图片和物品。
也许可以通过艺术的复杂性来预测标签属性的数量。
出现最多的tag 是men,women,flower
culture是french,Italian
最多的前30 占了50%,
提取RGB像素,亮度,饱和度,色调,然后用随机森林分析特征,发现亮度是一个很重要的因素。
观察图片可以看到完全不同属性的两张图·,由于有多黑白像素的噪声,存在一些不必要的相似性,这使得模型难以捕捉到与众不同的特征。另外很多样本的看起来很粗略,在训练是增加对比度或加强边缘可能有助于模型更好地理解这些图像。