科技青年 | 训练机器说话20年,他勇闯阿里巴巴宝库

640?wx_fmt=jpeg

科技青年们,都在想些什么?

科技是第一生产力;青年是时代发展的晴雨表,也是引风气之先的社会力量;科技青年,从行业精英中来,到优秀学者中去。三人行必有我师焉,高校辈有人才出,带你上车,体味大神们寻常人生中的酸甜苦辣,获得满满干货和人生箴言。 

天下学者一家亲,到哪都可称师哥,今天听谁唠唠嗑?

本期我们有幸采访到了毕业于哈尔滨工业大学社会计算与信息检索研究中心的刘一佳博士。

640?wx_fmt=jpeg
图源:个人提供

640?wx_fmt=jpeg
对天空大声的呼喊:芝麻开门,宝藏拿来
 
刘一佳,一个被计算机耽误的大艺术家,一个被达摩院挖走的段子手。“简单”是他毕生的追求。简单的他留着简单的发型,戴着简单的眼镜,穿着简单的衬衣,过着简单的生活,说着简单的话,却在做着“不简单”的研究…
毕业于哈尔滨工业大学的刘一佳博士现在就职于阿里巴巴达摩院,作为算法工程师,主要研究自然语言处理。
 
“它做的事情主要就是将人类语言分析转化为机器可以理解的形式化的表示。”
 
刘一佳简洁明了的向我们介绍道。
 
人类的语言丰富多彩,在表达相同语义时,采用的方式也各不相同。机器相对而言比较机械,处理问题方式单一。如何把丰富多彩的语言世界交给一个比较机械的机器去处理,如何发掘成千上万种语言中的共同特性,这一系列的问题像阿里巴巴的宝库,就等着我们去大喊一声“芝麻开门”,过程充满着挑战与趣味。
 
这也是吸引刘一佳得以长期从事自然语言处理研究的闪光点之一。
 
“我的主要研究兴趣是包括中文分词、句法分析在内的基础自然语言处理问题。最近一年,上下文相关词向量帮助从基础到上层的自然语言处理任务取得了显著的性能提升。近期,我们也比较关注上下文相关词向量在基础自然语言处理问题上的应用。我们想知道上下文相关词向量能否给句法分析、语义分析带来性能提升以及背后的原因。在上下文相关词向量的帮助下,我在哈工大的团队分别获得了18年和19年的CoNLL句法、语义分析评测的世界冠军。在夺冠系统的基础上,我们对于上下文相关词向量潜在起作用的方向进行了多项分析。在句法任务上,我们认为上下文相关词向量通过对词形进行更好的建模从而帮助句法分析模型获得性能提升。”
 
640?wx_fmt=jpeg
 图源 : 个人提供

刘一佳用着自己简洁犀利的言辞,向我们介绍着自然语言处理研究目前所取得的成果。
 
在此基础上,小编陆续提了几个同学们关心的问题:
 
Q:自然语言处理领域的研究现状是什么?现阶段的一个进展?
 
“随着深度学习在人工智能领域的广泛应用,我们基于深度学习的自然语言处理,现在已经是整个领域的一个主流。
 
近几年,应该是从17年开始,有一种新的研究风潮,就是通过预训练语言模型的方式去帮助处理,如做分词词性标注、绩效分析等等一系列的自然语言下游问题。
 
这一套的范式可提炼为:首先,在大规模的未标注的文本中预训练语言模型,然后把它迁移到其它任务上,像机器翻译,对话问答等等,属于范式上的一个转化。
 
这一套范式可以说已经革命了整个自然语言处理的方法论。现在大家的研究趋势越来越趋向于关注如何让机器能够更好的利用大规模的生语料,如何从里面训练出一个好的语言模型,如何让这个模型更好的帮助下游任务等,效率在不断提高。
 
但这一范式仍存在,人类丰富知识与模型融合度,数据可能存在的潜在偏见等一系列问题,需要我们去探索和挑战。
 
Q:你是如何做研究的?
 
“我是一个问题驱动研究者”
 
在进入一个课题后,刘一佳首先会调研问题相关的数据集,然后提炼现有模型中存在的一系列缺陷、潜在可改进的部分或它与其他的一系列问题的交叉和融合。总结出这些点,在脑海中形成问题,接下来努力思考如何尝试一个新的模型去更新或者优化它。这一整个过程令他始终是怀揣疑问,对研究充满激情。
 
Q:您在科研过程中有没有遇到过什么工作或者人际上的困难?都是怎么解决的呢?
 
“我觉得每次换工作环境时,都或多或少遇到一些困难。回头看,这些可能与自己略有内向的性格有关。好在我个人成长路上的导师对我都很好。从在百度实习阶段到16年访问华盛顿大学,几位导师除了给我技术上的指导,更在融入团队方面给了我很大帮助。
 
印象比较深的是:刚到华盛顿大学第一次和导师Noah Smith meeting时,他就跟我说,“不管有什么问题都可以和他聊,即使他不知道答案,也会找知道答案的人来帮我”。所以,感觉困难都是在别人的帮助下解决的。不过,这些接受帮助的经历也让我认识到在合作中给予帮助的重要性。现在,我也努力像Noah那样,给低年级的师弟师妹提供能力范围内乃至能力范围外的帮助。”
 
Q:为什么最后会选择来阿里达摩院呢,阿里达摩院有对你的人生产生什么巨大的影响吗?求职就业过程中的趣事或者经验分享。
 
“来阿里主要还是因为杭州这个城市,山美水美人更美。
 
求职方面,我觉得除了技术积累(比如:论文、项目、比赛等等),会说话,能完全准确把自己的优势讲出来也比较重要。求职不只是展示自己的能力,更需要展示自己的潜力。博士生由于要不断地写论文向别人介绍自己的工作,在这方面有一定优势。如果大家没有经过类似academic presentation的训练,可以找自己的老师或朋友,给他们讲自己的工作。”
 
Q:你最初的人生理想是什么?未来的规划?想要实现的目标?
 
“我在小学时曾经想成为一名艺术家,还参加过几年的美院考试为目标的绘画培训。后来,发现哎学习成绩也不差,就放弃了绘画课。现在想想,如果当时没有放弃绘画,很可能在十几岁时走上另一条路。
 
当然,现在也很棒!希望未来能成为一个合格的学者。一方面能产出一些更基础、普适的学术研究成果,另一方面也在努力将前沿的成果产品化,使得大众能从技术的进步中获益,从而看到更大的世界。”
 
Q:作为过来人和比较成功的师哥,对于即将进入社会,找工作或参加工作的师弟师妹们有没有什么建议?
 
“注意身体健康!健康是享受工作与生活的前提。”

640?wx_fmt=jpeg
图源:个人提供

640?wx_fmt=jpeg
刘一佳有话说:我是一个被科研耽误的“大艺术家”,简简单单是王道

真的勇士敢于直面惨淡的人生,敢于正视淋漓的鲜血,更敢于表现真实的自己。
 
对于自己的评价,刘一佳就两个字——“简单”。
 
简单,也可释义为“单调”。跑步,工作,吃饭,打游戏,睡觉,生活像机器一样规律又单纯(单调)。
 
“没错,我就是一个单纯善良的好人。”
 
“生活越简单,人生越快乐。专注在自己喜欢的领域,哪有时间去搞那些花里胡哨的复杂事儿?”
 
说到这里,刘一佳好像突然想起来了什么,抄起手里的家伙递给了小芯芯。
 
640?wx_fmt=jpeg
(13年时画的孙燕姿---我要的幸福的专辑封面,证明我还是画过画的人)

“哦对了,以前还喜欢画画,小时候还专门学过,但是后来因为成绩不错就放弃了,也许我就是那个传说中被科研耽误的‘大艺术家’吧。”
 
640?wx_fmt=jpeg

而面对别人对自己的评价,刘一佳面露羞涩的表示:
 
“我的一些朋友的确会觉得你发了一些文章,然后又拿了一系列的奖学金,就将你定义为学霸。但对我自己来说,我还差得很远。我们这个领域里有非常多优秀的学者、优秀的年轻学生和年轻教师,我非常敬仰他们,他们才是真正的学霸,距离他们我还有很长的路要走。而且作为一个职场新人,我刚刚入职,发现自己还有很多东西需要学习。所以说,我觉得自己并不能算一个学霸。”

640?wx_fmt=jpeg 天才有怪癖:小黑屋里突现灵感,洗澡时候蹦出good idea
 
“科研”让我们浮想联翩,美剧《生活大爆炸》幽默有趣的剧情让我们对科研人员的生活充满好奇与期待,总幻想着他们每天会发生什么有趣的事。
 
“科研一般没有什么趣事,都是比较枯燥、比较艰苦的。”
 
耿直BOY刘一佳一句话直接打破我们的幻想,但似乎,他也不想成为“话题终结者”,于是又张开了嘴巴:
 
“硬要挤点什么趣事的话,可能和我这个人有关,我比较奇葩,我在洗澡的时候,常常会灵感突现。
 
比如说,印象中比较深刻的一个科研idea,就是在洗澡的时候蹦出来的。我觉得可能是因为我比较喜欢独处吧。在洗澡的时候,自己把自己关在一个小屋子里,有时就会产生一些稀奇古怪的想法。有些想法甚至可能成为后续科研的研究方向,或者成为研究问题的一个思路。
 
当然就大部分时间来说,科研其实是一个没有那么多趣味的工作,或者说,它的趣味不在于一些感官上的,或者突然能让人很兴奋的这种情况。更多的是说在一个问题中不断的去挖掘其中可能潜在的一些能做的事情,然后钻研怎么去把它做得更好。
 
科研过程中有趣的点其实在于一些经历的获得和分享,比方说赶论文,连续一个星期只睡十几个小时;再比如说参加比赛的时候,你要管理几十个数据集的时候,要记住上百个数据集的时候,你无比焦躁的心情和硬着头皮上的经历,这个是每个人都会有体验的、宝贵的经历。大家如果想拓展自己的科研领域和技能,这一系列的艰苦和努力是无法避免的。”
 
“简单又耿直,内向又幽默,爱独处又爱合作”,人“狠”话不多,刘一佳瘦瘦略显安静的外表下藏着一颗犀利又调皮的少年心,他有趣的灵魂掩藏在他每句话、每个词、每个字之中,像潘多拉魔盒一般,紧扣心弦。
 
640?wx_fmt=jpeg
图源:个人提供
 
640?wx_fmt=jpeg

640?wx_fmt=jpeg

你养过宠物吗?有养过哪些?

没有养过宠物。
 

640?wx_fmt=jpeg你不是很喜欢鹦鹉吗?

 但它不是宠物。
 

640?wx_fmt=jpeg你有没有想着去试着去养一只鹦鹉?

 
我如果去试着养,可能会养猫。
 

640?wx_fmt=jpeg养猫,为什么呢?

 
觉得猫比较省心,不怎么爱搭理你。
 

640?wx_fmt=jpeg说说你最害怕什么东西,说三件?

 
我其实比较怕父母生病,如果具体到某个事物的话,可能我比较害怕蛇,还有怕论文被拒。
 

640?wx_fmt=jpeg那你为什么会怕蛇?

 
可能天生就对这种爬行类东西不太待见吧。
 

640?wx_fmt=jpeg那你应该也怕虫吧?

 
确实,那种蠕虫会觉得很恶心。
   

640?wx_fmt=jpeg如果你的生命只剩下最后一天,让你见三个人,你会去见谁呢?

 
父母,导师(咧嘴挑眉)。

640?wx_fmt=jpeg你的口头禅是什么?

 
没有。

640?wx_fmt=png
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货

如需转载,请后台留言,遵守转载规范

推荐文章阅读

长按识别二维码可添加关注
读芯君爱你

640?wx_fmt=gif
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值