机器学习也能成为“妇女之友”

from http://blog.csdn.net/u010972912/article/details/46747937

随着人们的生活水平和受教育程度的提高,相当多的人有了对美,对时尚的追求,尤其是女性.(给中国大妈跪了)


越来越多的女性话费大量的时间去逛街,流连于各大商场,踟蹰于各种橱窗。有的人则是去淘宝,去天猫,去京东,去亚马逊,就是为了挑选一件自己心怡的衣服,买了退,退了买,不亦乐乎(有对象的人都知道)。我对象就是这样,所以我对这种现象深恶痛绝。难道就没有好的方法了?选衣服似乎是一种分类问题,那么有没有一种方法告诉你设么衣服合适呢?

近期颜水城教授的演讲给我们展示了一个很令人振奋的应用领域,通过机器学习来分析时尚。鉴于本人实力有限只能笼统概述了。

颜教授打算形成这样一个系统:用purine作为整体结构,用brain-like和baby-like相结合的算法来训练系统,然后在这个框架上来开发应用,即时尚分析。

Purine是一个新颖的深度学习框架。基于传统的bi-graph 深度学习网络。这个网络通过复数的机器,复数的cpu和gpu来进行并行的训练进行加速。预定的任务调度程序,内存传输完全重叠与其他计算,大大减少了通信开销,使得purine实现了多cpu/gpu近似线性加速。

其实教授提出的brain-like和baby-like只是一个为了让大家好理解的概念。Brain-like和baby-like 的不同,主要体现在所学习的数据集包含的数据量上。Brain-like就是一个典型的深度学习网络,就像我们的大脑一样,要反复的刺激才能记住并学会某一样东西,所以对于Brain-like 的部分,需要大量的数据去训练。而baby-like就是说像孩子一样,不需要大量不同的数据进行训练,只需要少量相同的数据进行重复的训练即可,同时跟人的baby一样,有自主学习的能力。教授的意思是,用brain-like的网络结构+baby-like的无尽的自主学习程序。我的理解是用大量的数据训练产生一个全局的池(教授的结构上给的是average pool个人推测里面应为item mask,即人体某一部分的掩模),然后通过这个全局的池来进一步去学习不同的时尚元素。

在视觉处理这方面,大致分为三步:

第一步,区分环境和对象。

第二步,理解视频和图像。

第三步,去理解人(face and body)。

颜教授没有说明第二步和第三步的区别,我认为,第二步理解图像的组成,即图像里到底包含哪些抽象的整体。比如对于一张图片,能区分那些是山,那些是水,那些是人。而在这个系统中,我觉得是需要区别人和非人就可以了。因为时尚这种东西是人特有的。

(咳咳,这是个意外

其中第三步可以可分为两个部分:

1.脸

2.Body

脸的重要性不用多说,既然是时尚的分析,那么脸好无疑问是时尚的主战场之一。随着人脸识别的日趋成熟,估计大牛们都N种不同的姿势来识别出各种脸来(给山世光教授跪了)。但我觉得是更重要的是要去理解body,即哪里是头发,哪里是躯干,哪里是太阳镜,如果你有了所有的这些,才可以去进一步的理解我们衣服的结构,时尚的元素。

所以颜教授将开发妇女之友系统分为两个任务:

第一个任务:人体/时尚解析。

第二个任务:搜索化妆用品,然后对女性进行化妆。

上述两个任务是为何要我们要研究一下两个部分的原因

第一部分:时尚元素搜索。

第二部分:脸部的妆容分析。

 

由于时间的关系,颜教授只来得及讲了讲任务一:fashion/human parsing,

这里我就只对任务一说一下吧。

任务一的目标有两个:

1.decompose a human photo into semantic fashion items

人类图分解为语义的时尚物品。

2.pixel-level semantic labeling

定义像素级的语义标签(这个真心难懂呀)。

颜教授的研究分为了三个阶段,这三个阶段逐渐完善,使得他在的purine越发的完善。

第一个阶段为:管道解决方法Stage 1:pipeline solution

大致分为以下几个部分:

1.Segmentation hypotheses(分割猜想集)   

2.extract hand-crafted features(手工提取特征)   

3.parametric model(参数模型) 或者 non-parametric model(无参数模型)

4.Post-processing(后处理)

但是这中方法的问题很明显,系统严重依赖于单个组件的性能,同时整个结构建立在人工设计的特征和复杂的模型之上。同时,程序跑起来会非常慢。这个里面颜教授使用了密集超像素匹配(dense super-pixel matching)。找了很久,没找到资料。个人推测效率低是因为超像素匹配的过程中,逐像素匹配效率太低的原因。

第二阶段为:深度回归组件(deep regression for components)

在这个阶段,颜教授发现阶段一使用的方法实在是太慢了,于是进行了改进。他认为可以将人体看作是可变形的人体元组模型(类似于ASM,active shape model)。然后对这些部分进行单独的建模和学习,最终形成模板或者可以说是item mask(元组)。可变形的人体元组模型使得能独立的预测规范化项目掩模,他们活跃的形状与两个CNN网络/位置参数。不同物品的掩模体现在各种特殊的形状上。掩模可以近似为线性组合的已经学到的模板。

在实现过程中采用了两个并行的网络。Active Template Network(活跃模板网络)和Active shape network(活跃形状网络)。其中,活动模板网络预测物品模板的系数,每一个元组通过离线的非负矩阵分解学习50个模板,回归的输出50 * 17 的17个人体元组。主动形状预测网络主动形状/位置参数预测x,y坐标,宽度,高度,每个条目的可视性标志,消除在CNN 的 max-pooling层以保持位置的敏感。结合结果的结构化输出,细化解析结果,结合合两种网络结构的输出,并生成17种相对可信的人类的局部部位。

阶段三:像素到像素的深度预测。好吧,这是重点,但是内容太丰富了,消化不动了。

大致是要形成一个Contexts(这个不知道怎么翻译好)+fully(充分) 的卷积神经网络。

有三个重要的关机部分:

1.跨层相关联Cross-layer context:多层次特征融合。

2.全局图像级别关联Global image-level context:像素宽度标签和图像标签之间的一致性预测。

3.局部超像素关联 Local super-pixel context:Within-super pixel 一致性 and cross-super pixel 外观一致性。

 

颜水城教授的这个涉及到了太多我没听过或者接触很少的东西,暂时先写这么多吧,其余的在仔细看看,要补充的知识点数不胜数。不得不吐槽一下颜老师的英语,额……不甚标准,听着真费劲,

话说老颜的purine开源了,他为了打造一个完善的Deep learning生态圈也是蛮拼的,时尚分析只是其中的一个产物罢了。等这个生态圈推广了,我想到时候,这些基于purine的时尚应用真的会像颜教授说的那样,make a benefit life for women.

吐槽:

大概是3月底的时候听老邢说有个很牛的机器学习大会,我想都没想就报名了。去了才知道,全英文,连中国的教授也是。英语不好果然寸步难行。哈哈,硬顶下来的,发现英语确实进步了。不扯了,说点上海执行的体会。

鉴于很多大牛的公式都是云里雾里的,见得最多的就是loss function +regularization function,然后找全局最小值。好深奥,查查才知道,这个写不了,但是可以成为这个暑假的大餐了。遇到数学公式,我表示,我就不懂了。抓抓基础吧,matlab和python是好动西,这俩货出现的次数比loss function还多……


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值