html5比赛策划书,FashionAI 天池竞赛 - Top5 技术方案简汇

阿里天池关于服装属性标签识别的竞赛的 Top5 团队的技术方案 PPT 汇总. 可以在竞赛主页观看技术方案的答辩视频.

6621fa2b82dfd9eabffef02479aa3c5e.png

1. 禾思众成团队

83e465ce6e925ad0786035e43cb84079.png

7a2f3998fe7b6b8125c86e838ad672e3.png

9cf45dc187fc568a7d1fefb88c2b2c9e.png

03eac8d67cec9f2c55f2728a8f7f9935.png

7d87e36d8aab273915dc789a747f27eb.png

c8ff483bb7d3623198a08a5c344b27da.png

f971f34d8de9dd411ad7ecc08359e96f.png

081b0ac00e5b285cbc16f1efda6b2f59.png

199b5c89c38d4e868f8434d0ca725e84.png

306302e1f62011c7b3caeb4506387d88.png

f4e87bc4f7297f6e69e851431335a804.png

223c8c2de7f7e045739e35c55e7ed24d.png

ac2dc625207357584e715a9d7202bea2.png

cf2aafc94eac23ceeb5d85a2d6eaced9.png

3ce37111a09cb5505fc08cfadba6d57f.png

102011369f73ff40e62debf20fb661b2.png

80f083996464a5152f43dc87265a50e3.png

900ed9697ebf31cb934c552e333889f2.png

a2c5d43acb71328c5c0e5be646c59839.png

4241271ee8f78e9f98ab004edc4712a2.png

d0cc26929d98b7f13dbd1b3b8df42cd1.png

05547e1fdf4f7d44e2c4a15e0f3c9449.png

2. JUST GAN 团队

3cee0128289d565841a4eaf540add404.png

e28135edd54e97d84b1f57427eb2744d.png

8d2032176118efa385251eab03a1665f.png

16b06e0e66a99540eff829e6576d1e24.png

328adbf6c3743e2545f02602f0ddbd1d.png

8a450b04bb87176d6258722300b3bd93.png

4805aaeb29c14318b6b984348fc893a0.png

047f93ccdaffb94a5d2bec1dd6e8f80a.png

1f76907846a778bcaf078ebe1f5521a0.png

47eee7e88ec0bc08ad602c3c87d78930.png

51ea4cdf501be5bcf396e59c7d27e99d.png

309748410233bdaef5f57bc0eed34fa6.png

a7ff6ebc9be789d77fa1e2cf0235594f.png

bb84704245cd987fb93054d4ee1a598f.png

38933d92d1440023e66c3d808f912dcc.png

529c6f943353a1b0f4404d8e16c27698.png

38f727889c64effb6f792a5a903a0c1c.png

0ec3d11858e0b03ad1a9845110f960fd.png

3. 小飞猪团队

62eba2b03935b8837d63caadf32bc8bf.png

在开始我们的展示之前,首先想先问大家一个问题: 如何理解Fashion?其实每个人对fashion都有不同的理解和关注点。因此阿里巴巴在本次竞赛中提供了丰富的数据,从Attributes Recognition 角度去理解Fashion。

28d7a973d662f6ab3d1031651c99a333.png

数据集照片的属性标签可以分为两大类:长度估计,款式设计

长度估计包括:衣长,裤长,裙长,袖长

款式设计包括:领口,领线

带观众了解一下数据集,数据集又分为两大类,一类是长度估计,包括衣长、裙长、裤长、袖长;另一类是款式设计,大多关注领口的款式,比如V领圆领等。

总的来说,数据集大概有18万的训练图片,可以分为8大类,54小类。

84327b1782f07f758d783fe0e032e1bf.png

(看几个例子)数据集中有两类图片,一类是模特图,一类是平铺图。左边是两个比较容易的图片(不需要解释为什么容易),右边是一些比较难的图片,他们有遮挡、剪切、多个人、姿势变形、小尺度、旋转等方面的问题.

3f80052232178a0aebe739fcc39bf4be.png

下面,我向大家介绍一下我们这次提出的解决方案

我们的方案非常直观,分为两个模块,第一个是Detection,第二个是Recognition.

be311ab8a0ddf7755a9b5a8693941c4a.png

具体的网络框架可以看这幅图,左边是Detection的过程,对输入的图片进行处理,找到图片最重点的区域,右边是recognition,检测到图片区域会经过两个深度卷积神经网络,得到最终的结果。下面我们将对这些模块一一具体讲解。

924fe4818ce10d25f8d566c62489e421.png

首先,为什么我们要做detection。大家可以想象一下,不管我们的分类长度估计也好,款式设计也好,首先我们应该做的,是把这件衣服找出来。而detection就能帮助我们完成这件事情,让我们把注意力集中到图片中最关键的区域,这样就可以避免位置和尺度不一带来的干扰。其次是假如图片中有多个人或多件衣服,detection也是可以搞定的,有多少件给你识别多少件出来,这样的情况在生活中是非常常见的.

89ae5c48808de94207e9cb2bc027a575.png

这是我们detection的整个pipeline,可以分为四步。首先,当然是检测出衣服所在的位置在哪啦(强调“当然是”),然后再经过后面的放大,填充以及数据增强操作.

f33f07cb2e736aebcdf6e625b1d368e2.png

我们怎么做detection呢。我们采用的是Faster R-CNN, ROIAlign和YOLOv2作为我们的detector,它们都是在学术界非常state-of-the-art的方法,也在一些成熟的产品项目中有应用.

791ad366856b8357be066cb22cb45a6a.png

检测出框之后,我们会利用框周围的context信息对原来的框进行补充。好这里问题来了,为什么我们要用context信息呢?

大家可以想象一下,比如对于裙子来说,我们人的腿是不是一个非常有用的参考信息,比如我看到了膝盖,可能就是短裙,我看到脚踝,可能就是长裙。因此,这个context上下文信息是可以引入一些挺有用的参考信息的,对分类也是有帮助的。其次,加context信息可以把一些漏检的区域给补回来,有效地减少缺胳膊少腿的情况.

好,现在问题又来了,怎么设定这个padding的大小呢?这里我们要引入学术圈非常常用的两个数字,一个是512,另一个是448,在训练模型的时候,512 random crop 448是一个非常广泛使用的setting,我们在之后的训练中也用到了。所以,怎么让这个random crop,无论怎么random,都能框住检测的核心区域呢?答案就是,将核心区域的大小缩放到384,这样就能保证,检测核心区域能够永远被框中.

886c2fcbd2e46bce0be717498f2a114f.png

Detection部分的亮点就是这样,下面我将介绍我们的分类模型。我们的base分类模型采用的是DPN和NASNet,其中DPN是imagenet2017 物体定位的冠军,性能非常强大,而NASNet就更有意思了,它是google最近搞出来的,用神经网络生成出来的神经网络。非常推荐去阅读这两篇paper了解更多有意思的细节.

93ee1b5630021ce9fb705cbc060d2dbe.png

数据集难点。其实在这个task中,有一个提到的难点,这个数据集中有两类的图片,一类是模特图,一类是平铺图。从我们人的直观感受来看,假如衣服穿在人身上,我们人就是一把活的尺子,可以用来丈量衣服的长度,而对于平铺图,就只能通过一些比例,比如长宽比啊去估算了。我们统计了一下数据集的一个分布,发现了一个有趣的事情,在长度估计的类别中,模特图平铺图的比例大概是一半一半,而领口款式设计类的图片全是模特图。我们接下来提出的方案是针对图片有人没人这个特点的,因此只对四个长度类进行设计。

4abc445a3ea0e48465173bf8215e649d.png

这个是最原始的分类网络,输入图片,输出label。

82b45dd332cbdc8b14900533c7ca7b4f.png

我们在此基础上,引入了multi task training 的概念,用另一个分支去预测输入图片是模特图还是平铺图,两个分支同时优化整个网络。这样做有什么好处呢?这个好处是体现在分类之前的这个feature F身上的. 原本的 F 只有区分label的能力,网络需要去学习模特图和平铺图之间的共同点,这样是比较困难的;现在F同时具有了判别模特图平铺图的能力,这样在最后一个隐空间学习的时候,能从两个不同的角度去拟合label,这两个角度都是学习同种图片类内的共同点,所以会比较简单。

c6eae11d547db9758919544d3e8fa32e.png

首先,不知道大家注意到没有,不同长度之间,实际是有一种包含递增的关系的. 像长裙可能有这么多布料,长裙包含这么多布料,它当然包括短裙需要的布料长度. 我们可以利用这种类别与类别之间的递增关系。

另外,如果一个短裙被误判成了这种中长裙,错得不多,但如果预测成了长裙,那错得就很离谱了,显然,错得越离谱需要给更多的惩罚。结合刚刚说到的两点,我们提出了这种 incremental label 的表达方式。

具体是这样的。最原始的label,第一位是1代表第一类,第三位是1代表第三位;可能也有其他人注意到这点,稍微改进成了这种soft label的方式,让ground truth周围的类不会有太大的惩罚;而我们提出的incremental label是这样,一个1代表第一类,三个1代表第三类,六个1代表第六类,用1的数量来表示长度。我们通过实验也发现,这种方式的设计可以大大提升准确率。

下面我们展示一些我们在比赛过程中做的一些不同维度的对比实验

56284ac32508caceb495a1b3151c5cd4.png

首先这个是我们在本地验证集上的实验结果,我们对比了在所有类别上用原图,加了detection以及加了模特平铺图分支分别的实验结果,可以看到,加了detection对准确率和map的提升非常大,而加了模特平铺图分支之后又能进一步提升.

55bb85d804a509950918ed79468d91fa.png

这个是我们在衣长这个类别上,对比了我们几种创新方案的实验,可以incremental label和soft label的准确率提升都非常大,但map指标反而下降,因此最终我们没有采用这两种方案,用的还是模特平铺图这种在准确率和map都有提升的方案

c4f4ba53600501cbd7e20b27e7fbb3f7.png

接下来我带大家做一下性能分析。首先我先解释几个概念,在预测的时候,为了提高分数,我们使用了multi crop testing,具体操作是 :

1crop指的是原图,2crop指的是原图和翻转,5crop指的是对原图进行五种尺度的裁剪,10crop是五种尺度裁剪以及镜像。

下面这个是我们模型的运行效率,推荐大家从下往上看。

ac2b722ba9d8ddcef43908aaf5d66d5c.png

最后,总结一下提出的方案.

9e794d034f9e7bed68467ccd7775e213.png

首先,Detection能够大大地提升准确率,而且它在更加复杂的场景,比如多个物体,或者物体不在图片中心之类的情况,都能够适用,在实际产品中非常具有应用价值;

其次,适当的multi task training可以增强feature的表达能力,在一些具有层级结构label的分类任务中能够起到作用,比如说动植物里面界门纲目科属种的分类就可以这么用;

第三,incremental label的这种表达形式对于具有递增形式label的分类任务是非常有作用的,比如年龄,长度,体积等等

bbf5c1d3204576642fced1e215f4ba9f.png

3c62362b4c4c9900dde34453b0384670.png

158ea1bd7575971c9900c41857a52a45.png

dcb4a1a74f193b42940ce2976a10218e.png

f27790e0a6c58b9b2f94144f137c31cd.png

性能分析,上面是在detector和classifier中用的分辨率,检测器速度

下面是分类器速度,当我用用大batch size的时候,由于GPU做了并行优化,可以发现速度明显加快

274e1cdd052492948c41a9a733bad5a5.png

Invisible是一个特殊的类,它跟其他长度的类或者设计的类没有共性,放在一起会加大网络学习的难度。我们将这个task提前,让模型在前面先判断是否visible,如果是visible的,后面再进行label预测,这样就不会让invisible的图片干扰到label的学习.

edd4b785615ae385647dc1174d1769c2.png

这个是novel trail的实验结果,可以看到 incremental label,soft label, invisible的准确率都有提升,但是map降了,所以我们最终的方案并没有采用.

4. BUPT_OVERFITED 团队

d906110a71673ff18ab76515ac529dee.png

2e04719990dd5e2bc6ae0bed45b84ccc.png

1602e5af7942e6e34601d42ca893634c.png

88657088ed6f6ed3daa5ec10a3f9c07c.png

8aed2ed3c4aaaef556d5322d4be638d0.png

068dde6afac405c83c6ece67cde9d264.png

43696e707d03b0988a79513d715df742.png

1b33691e03594f539147d73fd65a636c.png

9324b9035a986e0bb7c7b6b6aaa3ee79.png

e9b0ece606f53e87a9e8af8c5008c110.png

c585778b34ae8203ffa5358fc0894521.png

8497d58d820866aba17c149ba5dac993.png

70e892e06635b64755ececabf6f767c8.png

d8199b01ebef6c1eb6f488b3ac0a06c3.png

8fff6eaf9cd9ed15a9294898ed658dc6.png

43f9de2de57678b8b94bc7dff02a2a0c.png

593e9ae6d11c4f05874dd5873a98fbe0.png

7c7ef040b3784d9822f300c75d2e4165.png

795e9e73f5f0a6a0687223abc67c06fd.png

651fadc0a758863351253f725674ad96.png

d3f674af390de348b1f224f030f6ac64.png

873f7d8a6eefb7d20cf89e90d72f7e54.png

5fe6da888f7d24a0b67c30306445852c.png

d73cb79fedd87e4065c0f58242e2c62c.png

fe71cc1b99a29c5bf8ca218ea45a1803.png

fa363c411939e9f35d3f7188156df7d4.png

08a0b99e514a267c90adae88e3b53dfd.png

026e9566b96b34fae3c52809c6547f0f.png

72fa2b96de74e9bc3174295d84243f20.png

098819a32d44f562c8609b7ea021a777.png

d39b22498efb7fa5d0e16203a4e01d40.png

1f47f610b201a2161e8e86f499d843f2.png

82a65a92e1fc869bf2485fadcadce503.png

5. SIAT-MMLAB-VIP 团队

55e94d153637b1231ee07f73f1d00ae2.png

7e16c796693f2958a678303897b38b11.png

376880e9df00e855b2d994855c4bdce9.png

fb3a9999f918849d0904019a941116cf.png

c60be1f5fa103672158dee6ddf1c1748.png

02dce12cd09c51f8f06e3d057eee0e75.png

21c644adada11e8edbbce498cb4ff81e.png

1fd6de5a388cac2139db3a0f8c620742.png

fadef98f197e7cbc7191f197833da189.png

1636fcea67404666f17f846cfa9e33af.png

50abeacaef0914206dd57b3649d16203.png

5ffca66a35d295b3e830fac62cad5df7.png

79dd84ccdda155c694f77f4791650b2c.png

1e3259cc71749e01defe0ae5946afdd9.png

a4d0b3871e7d5cf7997e575a58aa7e97.png

ed4e470993a979b819a06ef61f434dc6.png

13ff40b4e7b209de703240e2b96df197.png

17b77a221257a5676966a368db8acddc.png

5dfaeeb048adfbc6a38308080d151a55.png

d298f31c0654c8b217c1c9e283fd1c60.png

9bee18948a413bbf4018091662b8df9c.png

ed6794fd5fe8215c838b8c450c9ed340.png

4eabb269e2fa20b31696c1c6601cbdbe.png

67c2682d60e164c59c8307c9f4716913.png

009221d0ac8ab0e020b501b5ae9c3550.png

bdec9860124593cd826cc64aa86733b1.png

6e66c4dedc1bd081e1990bc5e53b4782.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值