The 11th International Doctoral Forum

最新推荐文章于 2024-06-07 13:01:43 发布

MrPhD

最新推荐文章于 2024-06-07 13:01:43 发布

阅读量498

点赞数 1

分类专栏：会议总结文章标签：人工智能计算机视觉自然语言处理语音识别

本文链接：https://blog.csdn.net/mrphd/article/details/84862071

版权

会议总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近刚好有点事情来深圳出差，受朋友邀请就参加了清华大学、香港中文大学、西北工业大学举办的第11届国际博士论坛，论坛地点在清华大学深圳研究生院，这篇文章用于记述论坛的七个invited talks（本篇文章只关注一些take-away message）。

开幕致辞

七个talk分别是佐治亚理工的Prof. Chin-Hui Lee带来的“Knowledge-rich Speech Processing: Beyond Current Deep Learning”、清华大学Prof. Zhiyuan LIu的“Knowledge-Guided Natural Language Processing”、港中文Prof. Guoliang Xing的“Edge AI for Data-Intensive Internet of Things”以及清华大学Prof. Jia JIa的“Mental Health Computing via harvesting Social Media Data”、NPU Prof. Lei Xie的“Meeting the New Challenges in Speech Processing”、港中文Prof.Bolei Zhou的Deep Visual Scene Understanding和清华大学Prof. Chun Yuan的“Event Level Video Captioning based on Attention RNN”。

Prof. Lee的talk实际是主要围绕语音识别，但是方法上需要超越了如今的深度学习，现在的深度学习实际上是个黑箱模型（老师称之为粗功），需要引入一些专业知识（细功）去改善最终的结果。比如，在语音增强方面并不使用传统的分类方法，而是使用回归，将带噪声的数据回归到未含噪声的数据（2019 IEEE 信号处理会议的最佳论文）。

Prof. Liu的talk简要介绍了NLP方面的一些基础内容，着重讲述了THUNLP组最近的一些工作：在传统的word embedding中加入知识（比如How Net）来提升NLP任务的准确性，同时知识本身的获取也比较困难，又可以通过深度学习去建立这样的知识。之前一般建模的单位都是语言的最小单位，一般是word，但是他们的工作引入sememe（义原），也就是这里的知识。同时，这样的范式也比较好地可以解释部分NLP任务的黑箱，到底是什么让计算机输出错误答案。

Prof. Xing的talk实际上就是介绍了他们组在嵌入式物联网设备上的一些工作，比如将一个任务分解成不同子任务，将不同的子任务分配到适合不同任务的平台上。有个比较有意思的工作是他们的智能路灯，在智能路灯上安装各种雷达、传感器，通过网络与汽车进行通信，使得自动驾驶对汽车的要求没那么高。

最让我感兴趣的还算Prof. Jia Jia的talk，这一些系列的工作实际上是解决实际世界中很多人所有面临的问题，使用online的社交数据去关注mental health，具体的细节就不在这展开了，motivation很足，感觉这个研究方向是比较有意义的。

Prof. Xie的工作实际上是围绕语音处理里的一些事情，我比较关心的还是Deep Adversarial Learning。Deep Adversarial Learning实际上包括三部分的工作，一个部分是GAN，即使用生成模型去产生一个新的分布；第二部分是Domain Adversarial Training，实际上就是就是adjust两个分布到另一个常见的分布，比如迁移学习；第三部分就是对抗样本，通过一些微调使得模型发生错误识别出错误的内容等。

很早之前就关注过Prof. Zhou，他是汤晓鸥老师和Freeman教授的高徒。实际上今天的talk应该是周老师博士阶段的一些课题，仔细思考了一下，我也从里面思考出一些东西。实际上整个talk围绕的是场景理解，从被动式的理解到active的理解，其中的motivation当然是在真实世界中，人类学习、理解一些东西或者事情都是主动学习而不是被动的，分为以下几个part：场景识别、场景 parsing（这两个是passive perception），从画画中去学习表征以及跨视角的场景理解（这两个是active perception）。场景识别、场景 parsing实际上依赖的是数据集，我主要讲述下active的两个project。

从画画中去学习表征，这个工作有一篇文章叫GAN Dissection，就是探索GAN每一层的神经元都在干什么，比如某一个神经元可能是负责生成树，另一个神经元可能负责生成屋顶，通过控制这些神经元就可以生成想要的图片；跨视角的场景理解实际是利用不同视角的图片，去生成一个top-view semantic map，通过将这些top-view semantic的图片拼接在一起，就可以建立一个semantic floor map，可以用于机器人的导航等领域，这里面有一个细节问题：就是数据实际上是从3D仿真器中获取的（House3D environment）。

Prof. Yuan的talk围绕video caption，这是一个CV和NLP交叉的领域，实际是从image caption开始发展的，包括非深度学习的方法到深度学习的方法，再到video caption以及dense video caption。主要给我留下印象的还是video understanding的一些研究内容吧，在这里记一下：视频分类和动作识别，事件定位和检测，视频描述和视频QA，视频像素语义分类、语义分割、场景语义分析、物体分割等。

这篇文章也只是简单地记录了一些我认为有点价值并且我还记得住的message，最令我有感触的还是Chin-Hui Lee教授的一些话，现在太多人只会使用诸如tf这样的tool，缺乏一些关键的专业知识。打铁还需自身硬，多去学习学习，看看书。另外，从这次论坛可以看到，通过加入知识先验，一方面可以更好地提升一些任务的performance，一方面也可以会更好地解释为什么深度学习black box会给出这样的结果，有点向white box发展的意思；三维重建，尤其是三维仿真环境，在很多任务中还是有很大的价值，无论是周老师的cross-view场景理解还是自动驾驶都或多或少会需要这些仿真环境。写得不好或者不对的地方，还请批评指正。

MrPhD

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
The 11th International Doctoral Forum

最近刚好有点事情来深圳出差，受朋友邀请就参加了清华大学、香港中文大学、西北工业大学举办的第11届国际博士论坛，论坛地点在清华大学深圳研究生院，这篇文章用于记述论坛的七个invited talks（本篇文章只关注一些take-away message）。七个talk分别是佐治亚理工的Prof. Chin-Hui Lee带来的“Knowledge-rich Speec...
复制链接

扫一扫