如何将推荐系统与异构数据巧妙结合——专访微软资深研究员谢幸博士

原创 2017年12月04日 13:55:15

科技高速发展的社会,人与人之间的交流越来越密切,随之带来了庞大的数据量,然而对于多维度用户而言,在训练个性化模型的过程中,数据依然很少,那么,如何解决数据稀疏问题,挖掘出更多可用数据?如何将数据高效运用于互联网产品的主要承载形式——推荐系统?带着诸多问题,我们采访了微软亚洲研究院(MSRA)资深研究员谢幸博士,一起聊聊异构数据与推荐系统的那些事儿。

图片描述

谢幸博士,微软亚洲研究院社会计算组资深研究员,并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位, 2001年7月加入微软亚洲研究院。他在国际会议和学术期刊上发表了200余篇学术论文,拥有50余项专利,是ACM、IEEE高级会员和计算机学会杰出会员。

12月7日-9日,中国大数据技术大会(BDTC 2017将于北京新云南皇冠假日酒店举行,谢幸博士作为“推荐系统论坛”演讲嘉宾,将分享题为《结合跨平台异构数据的推荐系统》的演讲,欢迎与会者现场参与讨论。

个人发展与团队研究

CSDN:请谈谈您及团队在现阶段的研究侧重点或下一步研究和实践(例如应用到哪些领域)计划?

谢幸:我们研究数据挖掘的子课题:用户画像和推荐系统,关注“怎样用数据来刻画一个人”,利用用户产生的数据反过来更深入地了解用户。推荐系统是比较常见的应用,有很大的商业前景,它可以看作用户画像的一个重要应用,用户画像的用途很广,可以用于个体和群体数据建模、个性化或预测等。

现阶段研究重点主要为深度学习与推荐系统的结合。深度学习在计算机视觉、语音、自然语言处理都有很好的应用,在推荐系统里的应用也是最近几年的研究热点,我们关注怎么将这方面的应用落地——与微软重要的产品、项目和工程结合,这对于系统和产品设计都有一定要求。另外,我们也关注知识图谱与推荐系统的结合,并将研究成果真正应用到提高推荐性能上,比如微软的广告系统、新闻搜索,以及小冰、小娜这些个性化产品。

成为MSRA研究员的必备特质

CSDN:您是微软亚洲研究院资深研究员,您希望看到新加入的研究员们具有什么样的特质?

谢幸:新加入的研究员在具备学者精神的同时,团队合作和交流表达也是必备特性。对于做研究,交流能力是比较重要的,尤其是现在,需要将个人研究成果对外介绍,去与别人合作,以及去推广自己研究的项目。MSRA研究员在这方面的能力相比普通工程师强很多。除了这些软实力,研究员需要热爱技术和创新,不热爱技术,就不会想把事情做深。此外,过去偏学术理论的研究环境,对研究员的动手能力要求并不是特别高,但现在面对庞大数据以及项目,都要求研究员能够动手实现,所以动手和系统开发也是研究员必不可少的能力。

CSDN:您也是中国科技大学兼职博士生导师,您在教学过程中更看重什么环节?人才培养方面,您认为即将毕业的学生在基础研究和实践应用(与市场结合),哪方面更为重要?

谢幸:我在中国科技大学并不授课,博士生在学校学习课程,而在项目研究阶段,他们来到微软,由我指导完成比较系统的研究项目以及论文。“基础研究”和“实践应用”对于即将毕业的学生都很重要。学校不会发布或维护任何产品,做得更多的是基础研究。在微软,我们更强调学生参与产品项目。一方面,要达到博士的水平需要做很多技术研究,比如论文至少要有三个以上的创新工作,这些工作如果完全没有技术研究作基础,不可能做到;另一方面,我们也要求能够把这些研究成果应用到微软的产品里,不仅如此,这些研究需要成系统,对领域有深度的掌握。

CSDN:根据您的体会,哪些习惯对于研究与解决问题很有帮助?

谢幸:带着兴趣去探索“为什么”,这样对于研究是很有帮助的。有些人在很多事情上喜欢探究“为什么”,有时会问得深一点,比如通过用搜索引擎去查看背后的原因,很多时候,这种极客的方式都是靠兴趣驱动,如果只追求“差不多”,就不能探究很深。

异构数据在推荐系统的应用

CSDN:在演讲主题之外,请谈谈您目前还关注哪些技术与研究,为什么对这些话题感兴趣?

谢幸:我们在做数据挖掘的同时,也关注其它非计算机领域的学科,比如心理学、社会学、脑科学,我们本质上是对用户或者人进行研究。心理学研究人类心理现象,社会学是研究人类群体和社会行为还有脑科学研究人类大脑。这些与数据挖掘是可以相结合的,心理学里有一个方向是人格心理学,我了解以后觉得很有意思,可以用计算机做这件事情,后来我们与心理学结合完成了人格推测模型。我们也和社会学领域的教授合作,脑科学也是最近比较受关注的,深度学习的很多方面都受到了脑科学的启发,微软与中科大有些联合研究项目,就与跟脑科学有关。

CSDN:在您的研究领域之中,最希望哪些技术能取得突破,为什么?或者在更长远的未来,您希望未来的研究者们能集中精力解决哪些问题,或实现哪些目标?

谢幸:除了知识图谱和深度学习,我最近对“可解释”较为感兴趣,很多人在讲可解释机器学习,“可解释”对推荐系统也很重要,比如用户在看到推荐内容时,可能在想,为什么你会把它推荐给我?有时推荐系统背后的算法比较复杂,用户并不知道推荐内容是如何出来的,如果我们能与他解释,一方面让用户觉得比较透明,另一方面用户会更倾向去看你推荐的这些东西,讲道理是一种说服的过程,所以我们最近也在做可解释推荐,并与心理学相结合。

CSDN:异构数据在推荐系统中扮演着怎样的角色?它能给推荐系统带来哪些优势?有哪些创新之处?

谢幸:用户数据稀疏是任何推荐系统或者用户画像都面临的问题,无论现在怎样谈论大数据,但对用户来说维度太多,数据相对而言还是很少,为了解决数据稀疏的问题,我们发掘还有哪些数据可用,异构数据实际上是在解决这个问题,挖掘其他的数据帮助推荐,比如用户曾发表的文字、图片、社交关系等就是异构的,其类型结构都不一样,对算法也会带来挑战。

异构数据在推荐系统中所扮演的角色是怎样解决数据稀疏的问题,当我们有了额外数据以后,推荐性能相应会提高,但如何结合这些异构数据,用什么方法,这就需要创新了,在这次演讲中,我会介绍相关的研究应用。

CSDN:“跨平台异构数据”可以解决哪些现有系统所不能解决的难题?未来这一技术还将有怎样的发展和应用前景?

谢幸:知识图谱里面包含了异构数据,将知识图谱的数据结合到推荐系统中,能建立比较丰富的用户表示和商品表示,本次演讲我会介绍跨平台数据如何结合,如何充分利用来自不同平台的数据。跨平台异构数据除了用于推荐也可做预测,用于其他个性化甚至在对话系统,总的来说就是怎么样去表达一些异构的或者跨平台不同来源的数据,这个表示的问题是相对在别的地方,其他很多场景可以通用的。关于跨平台异构数据这项技术,我们目前主要围绕推荐系统来做,应用于个性化的信息的浏览。

CSDN:此前您提出了“人格推测模型”,利用社交媒体上的异构数据来预测人格,在模型训练过程中,遇到了哪些困难?如何突破?

谢幸:难点是数据采集,要采集大规模的用户数据并不容易,当时我们想了一些办法,一方面通过微软小冰收集志愿者的数据,另外也自己标注了一组数据,有了这些数据,在训练模型的过程中,更多是设计模型来把这些异构数据用好,我们采用了较为通用的集成学习来搭建“人格推测模型”,针对不同数据设计不同特征,也结合了一些心理学的理论和词典来帮助建立特征。

CSDN:您在BDTC推荐论坛的报告,侧重点将放在哪些问题上,旨在解开哪些疑惑,希望观众从中收获什么启示?

谢幸:我将通过我们的研究项目来告诉大家怎样开展这方面的研究,也许听众未必直接使用这种算法,但对于同样类型的研究能带来一些启示。跨平台和异构实际上是两个点,我将围绕如何收集跨平台的异构数据来做推荐,以及如何设计这个模型来做介绍。


  1. 直接访问大会官网:http://bdtc2017.bigdataforum.org.cn/
  2. 长按识别或扫描官网二维码;
    图片描述
  3. 大会火速报名中,购票地址:http://huiyi.csdn.net/activity/product/goods_list?project_id=3673

相关阅读:

版权声明:本文为博主原创文章,未经博主允许不得转载。

计算机视觉基本知识

计算机视觉主要分为四个步骤:图像获取、图像校正、立体匹配和三维重建。其中,立体匹配的目的是在两个或多个对应同一场景的图像中找到匹配点,生成视差图。视差图可以通过一些简单的几何关系转换成深度图,用于三维...

关于计算机视觉(随谈)

关于计算机视觉—随便聊聊zouxy09@qq.comhttp://blog.csdn.net/zouxy09        之前看了这么一本说自然图像统计学的书,本来是想着要好好看,然后每天翻译几页的...
  • zouxy09
  • zouxy09
  • 2014年08月17日 15:34
  • 33199

计算机视觉

计算机视觉              from:http://ffb93bb549a2b51b3ec4bfbb5d0f67be.zh.infofx.net/ 计算机视觉是当前计算机科学中的...
  • yuyin86
  • yuyin86
  • 2014年07月17日 12:50
  • 1594

计算机视觉领域的一些牛人博客,超有实力的研究机构等的网站链接

提示:本文为笔者原创,转载请注明出处:blog.csdn.net/carson2005         以下链接是本人整理的关于计算机视觉(ComputerVision, CV)相关领域的网站链接,其...

机器视觉与计算机视觉概念是一样的吗?

        机器视觉与计算机视觉概念是一样的吗?初识机器视觉和计算机视觉这两个名词,感觉是差不多的,都是视觉,而且计算机也是机器,研究计算机视觉不就是研究机器视觉吗?也许很多人都跟我同感,但通过涉...
  • byxdaz
  • byxdaz
  • 2006年03月10日 14:40
  • 7688

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

看车识党派:斯坦福大学李飞飞团队发表计算机视觉人口统计新方法

斯坦福大学的研究者们正在使用计算机视觉系统,利用谷歌街景图片上街边汽车的型号来识别给定社区的政治倾向,其识别准确率超过了 80%。这项研究的论文已发表在《美国科学院论文集》上,研究人员表示,新的研究不...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何将推荐系统与异构数据巧妙结合——专访微软资深研究员谢幸博士
举报原因:
原因补充:

(最多只允许输入30个字)