南京航空航天大学陈松灿教授访谈

最新推荐文章于 2022-01-02 10:00:00 发布

我爱计算机视觉

最新推荐文章于 2022-01-02 10:00:00 发布

阅读量3.7k

点赞数 2

南京航空航天大学陈松灿教授分享其从数学转向机器学习的学术历程，介绍了研究重点，包括开放环境下的机器学习、无监督迁移学习等，以及团队建设与学生培养经验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击我爱计算机视觉标星，更快获取CVML新技术

今天的文章来自CAA模式识别与机器智能专委会，南航陈松灿老师是52CV君敬仰的机器学习领域学者，学术成果颇丰，所带学生也都很优秀。

陈老师研究组网站：

http://parnec.nuaa.edu.cn/

以下内容转载自CAA模式识别与机器智能专委会

2018年9月9日，CAA-PRMI专委会通讯专家访谈栏目编委在线采访了南京航空航天大学教授陈松灿老师，下面是访谈实录。

1、请陈老师谈谈个人的研究经历与学习经历。

我1979年考上杭州大学数学系，研究生就读于上海交通大学计算中心，从事计算机网络研究，1986年1月到南京航空航天大学计算机学院任教至今，期间我发现自己对计算机网络并不感兴趣，一度也变得比较迷茫。因为我原来学的是数学，计算机网络研究中相对用得较少，如果放着本科所学数学不用，就再也没啥擅长的了，好在发现图像处理与模式识别中用到数学较多，所以就改为自学图像处理与模式识别。到了1988年，有老师从国外访学归来，他推荐我研究当时兴起的神经网络，由此我开始了在联想记忆神经网络方面的工作，并搞了好几年。2002年我也从英国访学归来，开始涉足从那儿学到的围绕核方法的机器学习。2003年开始，我建立了以自己的硕士、博士生为主的一个实验室，慢慢形成了现在的模式识别和神经计算研究(PARNEC)团队。我们的研究最初主要集中在聚类、图像分割、特征抽取、分类学习，并在这些方面获得了一系列基金项目资助，我个人获得了11个国家自然科学基金项目，包括去年获得的重点基金项目“面向大数据机器学习的不确定性建模”。

2、请陈老师谈一下目前研究的重点和特色。

我的研究领域更多偏向机器学习，涉及面相对较广。第一个研究的是开放环境下的机器学习，如开集(open set)识别；第二个是无监督迁移学习或无监督域适应(domain adaption)；第三个是多维输出分类学习(MDC)，传统多标记学习的输出标记是同构的，意思是输出中的每一维取值都是一样的，即为1与0，表示示例中某一标记的出现与否，而我们研究的是异构标记，比方说输出中某一维对应的一个标记是二值的，另一维对应的标记是多值的，甚至有可能是有序的，如年龄和评分等。第四个是压缩学习，也就是获得的数据是已经过压缩的，意味着并不知道原数据，现在基于压缩数据学习，期望学习性能与未压缩的性能差别不大；第五个是高斯图模型，主要用于特征间的相关性分析；第六个是高斯过程；第七个是非凸非光滑目标函数的优化，以实现对诸如大规模深度网络的优化；第八个是凸聚类，聚类方法很多，但凸聚类可以很好地处理不稳定性，我们做的工作是拓展，我个人认为是一个比较重要的方向。还有就是我原先一直在做的多视图学习，我们较早关注了非对齐视图的学习，也就是对象的多个视图有可能是不完整的，对象出现在有的视图上，但是在另外一个视图上不出现。该方向仍是一个热门。

3、请陈老师介绍一下南航“模式识别与神经计算”研究团队的情况，请分享在组建团队、吸引人才、以及内部的管理运作模式方面的经验。

我们团队现在有六个人，除我外，还有张道强、谭晓阳，刘学军，黄圣君，朱旗等老师。团队主要围绕机器学习开展交叉研究，如张道强教授主要从事基于fMRI等医学图像的机器学习，也就是开展功能性核磁共振图像分析，与脑科学有关。谭晓阳教授专注计算机视觉，他的人脸识别研究有自己的特色，并且他的一篇IEEE Trans. Image Processing论文2015年获得了IEEE SignalProcessing Society的最佳论文奖。刘学军教授做生物信息学，她主要研究的是microDNA分析等。黄圣君副教授研究主动学习，并应用于大规模Web图片的搜索，在主动学习领域做了很多优秀的工作，是CCF优博论文获得者。朱旗副教授研究的是自步学习(Self-paced learning)的特征抽取，将原先仅面向分类学习的该方法拓展到特征的表示问题。这是我们团队的基本情况，团队现在也是江苏省“青蓝工程”创新团队。

团队每个星期有一次大的半天学术交流报告，每个星期小的团队也有一次活动，也就是每一个学生每个星期会参加大的团队学术活动，还有一次小团队的活动，所以团队内有频繁的学术交流，外部我们也请了不少的学者进行交流。我们总的来说是一个既紧密又研究自由的团队。团队虽然没有严格的管理，但是气氛很和谐。每个小团队都申请获得了不少基金项目，还有横向课题。遇到大项目的申报，比方说去年报重点项目，我们就一起合作。

4、请陈老师介绍一下您熟悉的图模型、多任务学习目前的研究现状和未来值得关注的问题。

图模型里面我们主要关注的是具有挑战性的概率图模型，我让博士生做的是高斯图模型，该模型关注协变量间的相关性，但不关注因果性，而相关性不等于因果性，目前流行的深度学习也没有学因果性，所以以后将往因果性发现拓展。对高斯图模型中有一个更值得关注的是异构的高斯图模型，它可以用于医学、气象分析、交通流的分析，但目前这个模型计算量太大。

现在的多任务学习国际上做的相对比较成熟，静态多任务我觉得现在似乎已没有什么出彩的研究，而异构动态的多任务学习倒是应该值得关注。还有就是含缺失数据的任务学习，不平衡多任务以及鲁棒多任务的学习等都是值得探讨的方向。

5、陈老师在机器学习领域有长期深入的研究，目前尽管深度学习很热，但是陈老师团队研究关注的重点似乎还是传统机器学习模型与方法，请问您对未来的机器学习的发展有何看法？

我们团队的谭晓阳做计算机视觉，他研究的一块是用于无人机的深度强化学习，他在这方面已经投了一些文章。还有张道强做医学图像，他结合具体的医学图像场景也用了很多的深度学习方法。我本人也在做，只不过我们这边文章还没有出来，深度学习当然很重要，但是我希望做点自己感兴趣的。大家目前关注的更多可能是大数据大模型，正如朱松纯老师说过的，深度学习做的是小任务大数据。而实际中我们同样不能忽略小数据大任务，什么意思呢？就是我们现有的好多场景，尤其是医学场景，数据其实较小，深度网络很易过拟合，那么如何据此进行学习呢，一种方法是先用大数据预训练好一个深度网络，再迁移学习到小数据场景，这个我很感兴趣。我现在更关心的是大数据下面的预训练模型如何自适应地将知识迁移到小数据大任务上面来。我的一个博士生已经开始此方面的研究，所以虽然我没研究深度学习本身，但是我会借用它去解决小数据多任务的学习问题。

对于机器学习的发展，我认为将来值得关注的一个是开放环境下的机器学习，比如像无人驾驶，你收集了大量的数据，你能否处理可能的意外？你怎么建立一个适合于动态环境下面的人工智能算法或者机器学习算法？第二个是安全的人工智能，除具有第一个的意思外，就是如何使得基于隐私保护下的机器学习能够抵抗攻击，这样的一种机器学习算法在实际应用中很重要。

6、请陈老师介绍一下在招收研究生时，对学生素质和能力是如何要求的？您是如何考核和选拔学生？另外是否可以分享您指导学生过程的一些经验？在培养过程中您是怎样管理和要求研究生的？

我现在只有一个标准：踏实、肯学，还有就是目标明确，如果有一个好的基础那就更好了，其它的能力我都没有太多的考虑，比如编程语言我不考核，因为这些东西只要肯花时间，基本上短期内都可以跟上，满足研究要求就足够了。到目前为止，我已经培养了37个博士生，还有近百个硕士生，基本上没有遇到什么太多的障碍。南航这边生源其实并不特别好，有些学生的毕业学校很一般，但是我的想法是如果有一个来自于清华或者著名高校的学生，他能力很强，那他实际上是自己培养了自己，没我什么事，所以反过来，我们尽管生源一般，但是如果我能够把他培养出来，我觉得我的作用会比较大，因此还是很有成就感的。

我对学生采取的是自己平摊式的直接管理，我直接面对每一个博士生和硕士生，进行一对一的指导。我不考核学生什么时候来实验室，但是对结果盯得很紧，过几天就会询问一下进度，我们实验室氛围挺好，学生基本都不需要过多管理。我给学生科研开题很早，博士生在确定了考我的时候，如果我觉得这个人不错，我在审核的时候就已经开始考虑，也允许他进入我实验室的时候，半年时间里可以让他凭兴趣选方向，但是选定后就尽量不再改，然后采用倒计时实现培养流程管控。在培养过程中我们会频繁的交流，频繁的讨论，通过不断的讨论，获得启发。还有就是肩并肩一起改论文，逐字逐句的改，到现在为止我还保留这样一个风格。因为学生和我的英语都一般，所以我觉得我只能用笨办法，两人一起来做。可能这不一定是好办法，但这样我可以全面把握，给他们的指导也是滚动式的。写论文光英文不错还不够，写文章的切入点也很重要，需要考虑怎么展示工作的显著性，所以写之前我们会私下交流应该从什么样的角度切入，做实验之前也是这样，在写文章的时候实验已经做得差不多了。讨论好之后我会要求他写一个摘要先给我看，等修订完后，然后他写正文，有时写得不顺，我觉得改不下去了，那就再讨论为什么要这么写？学生回去对照着我们交流的意思再去改，重复这样一个过程，到最后改完为止。这种改法最多的可能到30遍，这个工作量确实蛮大的，但是看到他们成长，我也相当宽慰。我培养的37个博士生里面有不少在工作后的一两年里面就能拿到青年基金，绝大部分两年后就晋升为副教授。

这种管理模式有它的好处，也有它的坏处。好处是可以帮助学生顺利毕业，他毕业的时候可以发表几篇SCI论文。坏处是老师包干太多，毕业之后部分学生反而成果质量不如读博期间。所以需要折中一下，这几年我考虑让学生先思考怎么做，实在不行我再介入，有几个学生，到二年级时他有想法了，我就放手，让他自己做下来，但仍保留交流习惯。

7、陈老师在学术和应用研究方面都比较重视，请问您们是如何把握和平衡的？

我们团队里有的老师应用做的较多，例如黄圣君、谭晓阳，但我个人原来学数学出身，我不擅长和工业界接触，所以我更多定位在应用基础上面。去年有人找我做一个比较有挑战性的课题：涉及多时间序列分析的一个光纤拉丝系统，为了避免拉断，需要监控拉丝过程，系统中有很多的传感器，各种各样的传感器，速度快到每秒30米，目前为止解决不了，包括国外都没有解决。这个问题我感兴趣，因为能够提炼出来新的一个多时间序列预测的机器学习问题，这个比较难，可以作为机器学习里一个特殊研究对象。

8、陈老师多年连续入选 Elsevier 中国高被引学者榜，发表过很多高质量有影响力的论文，2018年当选IAPRFellow，在如何开展有重要价值的研究，取得有影响的研究成果方面有何心得体会？

影响力真的说不上，我的论文大概200多篇吧，印象里我的总引用率也就1万多次，单篇最高引用率现在也就接近一千次，远远低于我们这个领域里面的一部分人，有些文章说有独创影响也说不上，但是有些工作我认为还是有点意思的。说到如何选一个比较有价值的课题，我们通常也是先了解领域里的一些前辈的工作，在前人的基础上对一个比较有价值的问题跟踪性的开展纵向研究，希望能够有所改进。还有一种是围绕问题来做，在研究和问题梳理过程中发现一个新问题，抽象之后再来做。

9、请谈一谈在您们是怎么和国内外高校、科研机构和企业开展交流合作的？有些什么形式？

我们跟国外合作比较少，国内与其他高校的合作相对来说还是比较松散型的，通常以课题为主，比方说我和南京大学合作了十多年，我们有共同的研究兴趣，先后联合申报了江苏省的重点项目，还申报过自然科学奖，这种合作主要是课题导向。还有一种合作是问题导向的，有一个问题大家共同感兴趣，比方跟企业合作，他们找上门说有这么一个问题，能不能给他们解决？或者通过咨询了解他们在做什么，遇到了什么问题，提供一个相互交流的机会。

陈松灿，南京航天航空大学教授、博士生导师，政府特贴专家，国际模式识别学会会士(IAPR Fellow 2018)。研究方向：机器学习、模式识别。已在包括IEEE Transactions等在内的国际主流学术期刊上已发表SCI论文160多篇，其中3篇发表在国际权威期刊《Pattern Recognition》上的论文获2年一评的年度最佳论文提名奖(Best Paper Awards: Honorable Mentions)。 1篇《计算机学报》论文获颁2010-2014年5年度的3篇优秀论文奖之一。1篇论文获颁2016国际模式识别会议（ICPR2016）“模式识别和机器学习”Track的最佳科学论文奖。所发论文据Google Scholar统计，被引已超11900次，H-指数48。2014-2017连续4年入选Elsevier中国高引学者榜。分别于2011年和2013年获教育部自然科学1等奖和国家自然科学2等奖，排名均为2。主持国家自然科学基金11项，其中重点项目1项。现任中国人工智能学会机器学习专委会主任，江苏省人工智能学会常务副理事长。已培养毕业博士生37位，有6位获江苏省优博，其中2位进一步获全国百篇优博论文提名奖。

（责任编辑：张东波）