杨强：深度学习、强化学习、迁移学习的结合及应用进展

最新推荐文章于 2024-03-12 09:02:05 发布

DemonHunter211

最新推荐文章于 2024-03-12 09:02:05 发布

阅读量1.9k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/kwame211/article/details/78753577

版权

深度学习专栏收录该内容

318 篇文章 17 订阅

订阅专栏

作为首位美国人工智能协会（AAAI）华人Fellow，唯一AAAI华人Councilor，国际顶级学术会议KDD、IJCAI等大会主席，香港科技大学计算机与工程系主任杨强教授在国内外机器学习界声誉卓著。在此前接受CSDN采访时，杨强介绍了他目前的主要工作——致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning（RTL）体系的研究。那么，这个技术框架对工业界的实际应用有什么样的实际意义？在本文中，CSDN结合杨强的另外一个身份——国内人工智能创业公司第四范式首席科学家进行解读。

第四范式是原百度T10专家、杨强的弟子、迁移学习大牛戴文渊创立的公司，最初的定位是数据量丰富并且业务极为依赖数字化的金融领域，杨强在学术之余希望推广人工智能技术在国内的发展，参与了第四范式的创业。该公司最近发布了一个先知平台，自动化、智能化的机器学习全流程为一大卖点，核心技术就是RTL。杨强认为，人工智能成功的五个必要条件包括大数据、问题边界清晰、外部反馈、计算资源和顶级数据科学家，强化学习和迁移学习分别能够提供的反馈和适应性是单独的深度学习模型所不具备的，同时深度学习的重心已经到了从研究转向工业应用的时候。

图片描述

参与创业的初衷

CSDN：您之所以参加第四范式的创业，除了师生关系，还有其他的驱动因素？

杨强：其实我们一直热衷于一件事：让我们的技术走向社会。我们一直在研究人工智能和迁移学习，另外我们也看到了很多大公司的局限，很多大公司有自己的想法和目标，一个研究者并不能百分之百地发挥自己的想象力，所以我们就想自己做一个有情怀的公司，来支持我们自己做一些想做的事情。一个很好的例子就是Google的Deepmind，他们就是做他们想做的事情，这对我们来说是一个更重要的启发。

在第四范式，我的主要工作涉及设计算法，包括强化学习、迁移学习的算法，而在工程方面团队有很多优秀的工程师已经在大公司受过很多的磨炼，所以我们是互补的。

CSDN：第四范式公开介绍的核心技术，包括您说到的深度学习、迁移学习、强化学习，还有一个记忆网络，第四范式的技术体系和您研究的RTL体系是完全一致的吗？

杨强：是一致的，当然是不是完全使用还看具体场景。我们比较认可的是强化学习、迁移学习，当用不同的结构把它们给组合起来，就是一种很新的好的学习方式。这种方式在现在还不是很流行，我们预计在今后几年都会用起来，也会通过我们的平台推动起来。

深度学习的局限

CSDN：您如何看待深度学习的优势和局限？

杨强：深度学习的局限来自于几个方面：

表达能力的限制。因为一个模型毕竟是一种现实的反映，等于是现实的镜像，它能够描述现实的能力越强就越准确，而机器学习都是用变量来描述世界的，它的变量数是有限的，深度学习的深度也是有限的。另外它对数据的需求量随着模型的增大而增大，但现实中有那么多高质量数据的情况还不多。所以一方面是数据量，一方面是数据里面的变量、数据的复杂度，深度学习来描述数据的复杂度还不够复杂。
缺乏反馈机制。目前深度学习对图像识别、语音识别等问题来说是最好的，但是对其他的问题并不是最好的，特别是有延迟反馈的问题，例如机器人的行动，AlphaGo下围棋也不是深度学习包打所有的，它还有强化学习的一部分，反馈是直到最后那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。

CSDN：微软的深度残差网络是不是能解决表达能力的问题？

杨强：那是一个很好的跃进，它的层数也很多，表达能力很显然往前推进了很多。但即使如此，它也没有解决所有的表达的问题。因为它增加的是层数、层和层之间的连接数，而不是变量数，所以在变量数上还是有局限的。我们认为深度稀疏网络在变量数的容纳能力方面更强。

CSDN：迁移学习能解决哪些问题？

杨强：它主要解决两个问题。

小数据的问题。比方说我们新开一个网店，卖一种新的糕点，我们没有任何的数据，就无法建立模型对用户进行推荐。但用户买一个东西会反应到用户可能还会买另外一个东西，所以如果知道用户在另外一个领域，比方说卖饮料，已经有了很多很多的数据，利用这些数据建一个模型，结合用户买饮料的习惯和买糕点的习惯的关联，我们就可以把饮料的推荐模型给成功地迁移到糕点的领域，这样，在数据不多的情况下可以成功推荐一些用户可能喜欢的糕点。这个例子就说明，我们有两个领域，一个领域已经有很多的数据，能成功地建一个模型，有一个领域数据不多，但是和前面那个领域是关联的，就可以把那个模型给迁移过来。
个性化的问题。比如我们每个人都希望自己的手机能够记住一些习惯，这样不用每次都去设定它，我们怎么才能让手机记住这一点呢？其实可以通过迁移学习把一个通用的用户使用手机的模型迁移到个性化的数据上面。我想这种情况以后会越来越多。

RTL的实践

CSDN：第四范式的官方介绍是有100多个案例，不知道您参与了多少，强化学习和迁移学习遇到的实际的问题是什么？

杨强：我不能一一地说，但有一些关键的案例我参与了，这里面用了很多不同的机器学习算法，深度学习和强化学习只是其中的一部分。我要说的一点是，我们在公司建立的初期用得比较多的就是大规模逻辑回归和深度学习。即使加上深度学习，这个学习模式也有它的缺陷——在很多情况下我们得到的反馈是延迟的，这种延迟反馈是深度学习所不能解决的。我们就引入了强化学习来解决它，是有一种自我学习的过程，类似AlphaGo自我对弈，不断地提高。迁移学习，比方说我们在一个金融领域已经建立了一个很好的模型，但我们遇到了一个新的领域怎么办呢？解决所谓的冷启动问题就是利用迁移学习，当数据收集得足够多了以后，我们再改用深度学习。

强化学习

CSDN：强化学习的应用应该关注哪些方面呢？

杨强：强化学习的应用其实很广，最开始应用是在机器人上的应用，比方说你告诉Google AlphaGo到冰箱里给我拿一瓶牛奶过来，它就不会——路径的编程和怎么样打开冰箱都需要人写到程序里。怎么才能学会呢？这就需要强化学习来做，你让它试很多次，有时候拿到有时候没有拿到，通过例子，可以让强化学习的方法学习优化的路径。所以一开始强化学习是用在机器人的路径规划和任务完成上。但我们最近就发现，强化学习的应用面特别广，可以用在很多反馈上，但这个反馈不一定是马上可以得到的，比如医疗领域，对药品和医疗方案的反馈，就是一个很好的例子。

CSDN：我们用到了Q Learning？

杨强：用到了。但现在比较流行的做法是Deep Q Learning。

CSDN：关于扩张和探索平衡您有什么见解？

杨强：扩张和探索这个平衡一直是强化学习里面的一个大难题，现在没有特别好的通用做法，应该在不同的领域有不同的思路，在围棋领域尤其明显，比方说树搜索的宽度和深度之间就是一个平衡，但这个平衡AlphaGo做得很好。所以可能在机器人的领域，也需要引入这样的一个平衡点，这个平衡点也是需要去学习的。

迁移学习

CSDN：目前迁移能做到从金融领域迁移到其他领域么？

杨强：跨领域是比较难的，一般是比领域里不同的业务之间做迁移，跨领域在学术界有做的，比方说网络搜索可以迁移到推荐，图象识别可以迁移到文本识别，这些在学术界都有不错的工作，但是真的把它应用到工业界，还是拭目以待。

CSDN：难点在哪里？

杨强：跨领域的时候，我们需要另外的一种数据来帮助我们，这种数据就是衔接两个领域之间的桥梁数据。这种数据往往在工业界中是隐式的，存在人的脑袋里而没有被机器记录下来。所以我说人工智能的发展还在很初级的阶段，因为我们的数据没有连成片而是一个个孤岛，到了我们能连成片的阶段，有新的成果出来，会是一加一大于二的结果。

CSDN：在每个行业都有一定的成熟的应用之后才能真正用起来？

杨强：对，这个是要有耐心和足够的积累才可以发现不同领域之间的关联。以医疗企业为例，在基因检测领域已经有了很多的数据，体验有了很多的数据，但毕竟基因检测和体检是两个不同的领域，所以它们之间的关联很少，但当我们有了用户的行为数据，对用户有长期的跟踪，就可以把这两个数据关联起来。

CSDN：除此之外迁移学习还需要关注哪些问题？

杨强：有偏数据的处理。举一个例子，比方说我们知道在室外有GPS，室内没有，怎么办呢？我们要定位一个很大的商场，现在有一个办法是用Wifi来定位，拿一个手机APP收集很多的信号数据用来训练，但这个数据很容易偏——数据收集的时候和下一个分布是不一样的，我们是不是要重新地收集一遍？那样太麻烦了，不可能每个小时收集一遍室内的数据，所以我们的做法是收集一遍，过后用迁移学习把偏差给做掉，利用点到点的距离，利用校正的方法，在迁移学习里有一个算法也是我们发明的，叫做加权法，就是对过去的数据加权，使得过去数据和现在数据比较近的那些数据的权重比较大，比较远的数据的权重逐渐变小，在迭代多次以后，剩下的数据就是跟现在的数据类似的数据了，这种做法我们觉得行之有效。现在我们在室内定位的领域做了很多的实践。同时我要说明，这也是一种学术的做法，因为室内定位还不是到工业的水平，我们也在用机器学习做各种尝试。

先知的实践

CSDN：除了采用的学习方法，先知的定位，跟IBM、谷歌、微软的一些云服务或者是一些API有什么本质的区别呢？

杨强：首先先知是在金融领域诞生的，对金融领域是特别适用的，金融领域的几个特点是通用的云平台所不能提供的。首先是变量特别多、问题特别复杂，其次是以流的形式输入的，流的量也特别多，另外有很多噪音，并不是所有的数据都跟它有反馈在一起。当然，通用型的云平台也很有必要，用来做一些通用的处理。

CSDN：金融人工智能的两个常见场景，是风控和精准营销，能不能介绍其他的场景？

杨强：风控和营销是现在第四范式比较成功的场景，已经有很重要的客户来买单了，这个本身就不容易，因为在金融领域对这些IT公司的要求是比较高的。我觉得再往下应该还有一些机会点：一个机会点就是投资顾问理财产品，怎么样能够让公司在第一线而不是在后台能够为投资人或者是理财人提供建议、提供顾问，这可能是一个比较重要的点；第二个点可能是文本的挖掘，公司的财报，社会网络的舆情都会对整个市场有影响，那么投资市场是怎样受到这些报道和新闻的影响的？这个规律是可以通过自然语言学习来得到的。

CSDN：先知平台关注应用开发和算法开发，能介绍一下您能解决算法开发的哪些问题么？

杨强：我们有几个重要的工作。

如何能够建立一个算法库和算法图书馆来帮助数据底层的清洗问题。实际应用中，数据和数据之间有很多的孤岛，孤岛之间的连接很难，因为有很多数据是缺失的。另外还会有很多错误数据，如何能够把数据改进和连接，这些都是数据清洗的一个范畴，所以对应这些问题就需要建立很多的算法库。
建立了算法库以后要把它归一到机器学习算法所需要的输入格式，即数据转换，这也是一个脏活、累活，很多算法公司不屑去做。在实际应用中我们发现这些活其实占了整个流程的80%，所以某种程度上重要的是如何能让算法更快更有效更及时，并且能够在线地对到来的数据进行分析，建立模型（建模是第三个层次，第四个层次就是强化学习的层次），能够让系统自学习而不是通过人来驱动，能通过它的错误和做对的地方，能够对它整个的流程进行补充、修正，是从下到上的四个阶段。

CSDN：数据免清洗是怎么做到的？

杨强：系统有很多清洗的模块，清洗的动作一开始是由人通过一些工具来操纵这些模块，但当这种例子多了以后，我们就可以把这些例子作为机器学习的一个输入，学会一个模型，再由模型模仿人来做。

CSDN：这是一个通用的模型还是需要跟具体的业务做结合？

杨强：当然需要跟具体的业务做结合，因为不同的业务对数据质量的定义是不一样的，有些认为这些数据里面确实有很多需要清洗，有些应用就觉得不多。

CSDN：具体业务的数据上数据能支持输入需求么？

杨强：在成功的案例上，数据从量和质两方面都没问题。但我们要发现里面有很多地方需要人的聪明才智，也就是说，数据科学家的作用也是不可或缺的，怎么能让领域科学家把自己的经验转化成编程的动作。举一个例子，你要用深度学习模型会产生很多的特征，这些特征来自哪部分原始数据，什么样的特征才能解决业务的问题，就需要人的直觉和聪明才智，需要数据科学家和领域科学家的沟通。

解决人才的难题

CSDN：您强调了数据科学家的作用。机器学习领域目前有很多公开的论文，和开源的算法、开源的库/框架，我们的人才为什么还是稀缺的？

杨强：这就是刚才说的脏活、累活大家都不愿意去做，因为发表文章和看法是很光荣的事，所以大家都集中做那些事情。我对业界的呼吁，也是希望大家能够把身段放下来，做一些基本数据的处理，把重点放在底层。这也是为什么第四范式真的是在做一些最基本的工作，而不是从第一天开始就急着做一些很上镜的事情。

小结

杨强认为，迁移学习应用的成熟是一个循序渐进的过程，预计RTL在今后几年的应用将会更加成熟。

事实上，强化学习和迁移学习已经越来越受欢迎。中国工程院院士、中国人工智能学会理事长李德毅对“驾驶脑”的研究，就强调了反馈机制，除了将CNN用于形式化，采用强化学习的理念使驾驶脑越来越聪明也是一个特色。微软人工智能首席科学家和深度学习技术中心研究经理邓力也在他的工作中使用深度强化学习，以提升学习效率。而在微软研究院首席研究员俞栋与邓力合著的《解析深度学习：语音识别实践》一书中，多任务和迁移学习也占据了很大的篇幅。这表明，在深度学习最擅长的领域，强化学习和迁移学习依然有重要意义，深度学习也需要与这些算法结合使用。不过，杨强表示，之所以是RTL而不是DRTL，是因为并不是所有的应用都适用深度学习。

题外话

DemonHunter211

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
杨强：深度学习、强化学习、迁移学习的结合及应用进展

作为首位美国人工智能协会（AAAI）华人Fellow，唯一AAAI华人Councilor，国际顶级学术会议KDD、IJCAI等大会主席，香港科技大学计算机与工程系主任杨强教授在国内外机器学习界声誉卓著。在此前接受CSDN采访时，杨强介绍了他目前的主要工作——致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning（RTL）体系的研究。那么
复制链接

扫一扫