全文共5924字,预计学习时长17分钟
科技青年们,都在想些什么?
科技是第一生产力;青年是时代发展的晴雨表,也是引风气之先的社会力量;科技青年,从行业精英中来,到优秀学者中去。三人行必有我师焉,高校辈有人才出,带你上车,体味大神们寻常人生中的酸甜苦辣,获得满满干货和人生箴言。
天下学者一家亲,到哪都可称师哥,今天听谁唠唠嗑?
本期我们采访到了来自清华大学计算机系的柴成亮博士。
图源:个人提供
曲线救国?人机合作拯救地球?
“我叫柴成亮,本科毕业于哈尔滨工业大学,目前就读清华大学,博士五年级。目前研究方向是人机协作,比如说如何利用人机协作高效的获取数据,收集数据。”
柴成亮的研究方向,通俗来说就是人机合作收集数据。
“人的行为其实是比较不确定的,和计算机有一些区别,这就形成了研究的难点也是兴趣点,你需要真实的去和人打交道,你收回来数据各式各样,有时候里面会存在一些比较奇怪的规律,这个还挺有意思。”
针对目前研究方向现状与成果,柴成亮表示有话要说:
“每一个方向,它的研究曲线都是一个抛物线,就是说,可能跨度比如10年,可能这个高度就代表是不是热。那么你如果在前半段进去,这个领域是很好的,你会赶上你在这个领域正好热的时候。
比如大家常说三四年,然后中间可能是这五年,这前面的工作都是比较有开创性,那么引用也会被后面的工作引用,引用率也很高。而越到后面,研究的差不多了,就会呈现低迷趋势。一个东西总会研究完,不管是什么,就算是现在超火的人工智能遵循这样一个研究曲线的,只不过可能跨度会长一些。
那么,我所在的小领域,有关于它的研究,其实在我进去的时候就已经大概在峰值稍微往前一点了。往后展望,可能现在5年过去了,它可能慢慢往后,退居二线。所以说,那么我们就需要转换一些思路,比如,刚刚我提及的是人处理数据让这个数据变得更好。但我们并没有考虑对后续数据的操作,比如说机器学习的模型,能对它有什么影响,我觉得可以研究一下这方面的东西。“
这其实也是对刚开始读博士研究生的小伙伴们的一些建议,你要找一个方向,它处于峰值的前面,如果那个方向你进去时,它已经处于峰值后面,那其实已经没什么意思了。
现在很多项目都是比较有前景的,但你需要转变一些思路,要研究一些和真实应用紧密相连,比如说,数据收集这一块,已经有前人帮你做好了事情,帮你收集、标注好了数据。那么现在你将这些收集好标注好的数据,拿去做真正的事情,如分析挖掘、机器学习等方面,这才是真正意义上的有意义的研究。
如果说之前研究的是前半部分,后半部分可能是其它领域的人去研究。现在我们要做的就是把这三者串起来,应该怎么做才会直接影响到后面的应用,这个是重点。
针对研究领域问题,小芯紧追不舍,对柴成亮又劈里啪啦甩出一堆问题:
Q:我们现在有很多机器学习的模型,都需要大量的标注数据。 这是为什么呢?
第一点,人都是会犯错误的,数据不会说谎。人给你提供的标签有可能是错的,但只有用干净的数据,才能训练出好的模型,所以说如何让收集的数据更干净是当前的NO.1。
第二点,数据收集是有成本的。比如说你想收集1000条数据的话,假如说一条数据,你让人去标一下,那么你会给人付比如说付一块钱,那么你收集1000条数据是否就需要1000块钱?
所以说有没有可能收集一部分,你就能推理出来更多的东西。如何节省和收集数据的成本是目前最关键的问题。
第三点,效率,人类回答问题,存在一个思考过程,通常比计算机慢,如何在这个基础上提高效率呢?比如说这里有1000条数据让人去标,一条一条肯定是比较慢的。但是如果说别人标了一条再给你,你标第二条,然后循环1000次,那么就可以实现1000条一起让好多人去标,效率就大大提高了。
Q:你当初为什么会选择人机协作研究方向,这个项目在现实中有哪些意义、作用呢?
比如说,像百度公司这类公司,肯定有大量数据要标对吧?每个公司都有很多数据需要大批量处理。简单繁琐需要重复的工作,总想让别人去帮我做一下。
所以,它的意义还是很大的。包括像在斯坦福,图片标注影响力很大的东西,它之前也是靠人力标注的,花费的时间和精力巨大。但现在人机协作工程队就可以帮你去减轻这些时间等成本,这种简单重复性的工作可以通过机器帮助进行操作,对,就是人和机器把你手头大量个人应付不了的工作分给成千上万个别的人去做。听起来是不是松了口气?“
Q:你觉得目前研究方向已经取得的成果主要体现在哪些方面?可以举点具体的案例吗?
“学术上的话主要有一个任务,做实体匹配。举个例子,就是说两个东西指的是不是一个东西,比如说一个手机叫iPhone11,另一个叫Phone eleven,iPhone10,字母或数字换了,然后来判断这两个东西是不是一个东西。
这对人来说其实很简单,你看一眼就知道是怎么回事。但对机器而言却比较难。