中科院赵军:知识图谱关键技术及其在推荐系统中的应用

640?wx_fmt=jpeg

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第九期“个性化内容推荐”专场已于2019年9月22日下午在中科院举行。中科院赵军为大家带来报告《知识图谱关键技术及其在推荐系统中的应用》。

赵军全场报告视频

赵军,中国科学院自动化研究所模式识别国家重点实验室,研究员,博士生导师;中国科学院大学人工智能学院岗位教授。研究领域为自然语言处理、知识图谱、信息抽取、问答系统等。作为项目负责人承担国家自然科学基金重点项目等多项国家级重要科研项目以及企业应用项目。在ACL、IJCAI、SIGIR、AAAI、COLING、EMNLP、TKDE等顶级国际会议和重要学术期刊上发表论文80余篇。曾获第25届国际计算语言学大会COLING 2014最佳论文奖,2018年他主持研发的“大规模开放域文本知识获取与应用平台”获得中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。兼任中国中文信息学会常务理事,语言与知识计算专委会副主任,计算语言学专委会副主任,《中文信息学报》编委,ACM TALLIP副主编等学术职务。在中国科学院大学主讲《知识图谱导论》等课程,主持编著《知识图谱》一书2018年12月由高等教育出版社出版发行。

报告内容:推荐系统需要为用户主动推荐有用的信息,而知识图谱是当前学术界和产业界在描述知识方面的“事实标准”。该报告首先介绍知识图谱的发展脉络,特别是与传统知识表示方法的区别和联系,然后介绍知识图谱构建和应用中的关键技术,进而讨论知识图谱及其构建与应用中的关键技术如何服务于大数据环境下的推荐系统,最后简要介绍基于知识图谱的推荐系统的前沿学术进展。

640?wx_fmt=jpeg

知识图谱关键技术及其在推荐系统中的应用

640?wx_fmt=png

赵军老师首先介绍了大数据时代的信息过载问题: 1)全球数据以每年58%的速度增长,而且全球数据的基数很大,其使人们淹没在数据海洋中; 2)其中3%的数据具有标注信息,0.5%的数据被分析,所以信息也无法得到有效的利用,然后引出了能解决信息过载的具有过滤和筛选信息功能的搜索引擎和推荐系统,前者能快速地反馈与用户描述相关的内容,后者能个性化地为用户推荐合适内容,辅助用户快速决策。 接着,对搜索引擎和推荐系统进行了对比,其中,搜索引擎主要针对需求明确、大众化的信息服务,可以通过查询推荐来改善用户的体验,而对于需求不明确、个性化的信息服务,搜索引擎可能不能满足其要求,这时就需要推荐系统来解决,推荐系统可以主动推荐合适内容。 信息需求存在长尾现象,推荐系统通过对用户行为的挖掘,获取用户和产品之间的潜在关联,从而进行个性化的信息服务。 推荐系统在日常生活中无处不在,如豆瓣、知乎、百度的新闻传播间、网易云音乐推荐和京东商品推荐等,其已经成为我们生活中不可缺少的一种服务方式。

接着,介绍了传统推荐系统的主要方法: 1)基于内容的推荐系统,利用user(用户)兴趣和item(如商品)之间的相似度,基于内容上的相似性进行推荐,虽然该方法简单,但是效果不够好; 2)基于协同过滤的推荐系统,仅仅利用用户的行为信息,基于用户的历史兴趣进行推荐。 相似的用户喜欢的物品相似,喜欢相似的物品的用户相似; 3)混合式推荐系统,不是单纯只采用某一种推荐的机制和策略,把多种方法混合在一起,从而达到更好的推荐效果,如加权的混合、切换的混合、分区的混合和分层的混合。 紧接着又介绍了推荐系统的主要问题与挑战: 1)数据稀疏; 2)不可解释; 3)(用户)冷启动; 4)(物品)冷启动,为解决这些问题与挑战,赵军老师又介绍了知识图谱辅助推荐系统,知识图谱人-物之间的多维度稠密关联,用于解决数据稀疏问题; 丰富的用户画像,充分的物品描述,用于解决冷启动问题; 多维度远距离关联用于解决不可解释问题。

在介绍知识图谱之前,先介绍了数据、信息和知识的概念,其中,数据是事物的记录,信息是格式化的数据,知识是信息的有效组织。 接着,又介绍了知识图谱的五个发展阶段: 1)1950-1970时代,符号逻辑,神经网络,LISP,产生式规则和语义网路; 2)1970-1990时代,专家系统,限定领域,知识库+推理=智能,脚本和框架等; 3)1990-2000时代,万维网,人工大规模知识库,本体概念,智能主体和机器人; 4)2000-2006时代,互联网发展高峰,语义Web和群体智能(维基); 5)2006年时代,维基结构化,通用和领域知识,大规模知识获取和大规模工业应用。 从知识图谱的发展历史可以看出,从信息服务向知识服务的跃迁是机器智能发展的必然。

在介绍完知识图谱的发展史之后,又介绍了知识图谱概念起源,知识图谱的概念最早出现于Google公司的知识图谱项目,体现在使用Google搜索引擎时,出现于搜索结果右侧的相关知识展示。 截止到2016年底,Google知识图谱的知识数量已经达到了600亿条,包括1500个类别的5.7亿个实体,以及它们之间的3.5万种关系。

在介绍知识图谱在推荐系统中的应用之前,先介绍了知识图谱的相关概念,知识图谱具有图的结构,以结构化三元组的形式存储现实世界中的实体及其关系,由实体集合、关系集合和三元组的集合组成,三元组通常描述了一个特定领域中的事实,由头实体、尾实体和描述这两个实体之间的关系组成。 关系有时也称为属性,尾实体被称为属性值。 从图结构的角度看,实体是知识图谱中的节点,关系是连接两个节点的有向边。 并以WikiData为例,从知识结构和实例数据方面介绍了知识图谱示例。

知识图谱又是一个知识系统,以一种统一的方式表示知识框架和知识实例这两个层面的知识内容,各个具体实例数据只有在满足系统约定的“框架”约束下运用才能体现“知识”。 同时,知识图谱的知识表示,不仅体现在以Semantic Web资源描述框架RDF为基础的三元组上,还体现在实体、类别、属性、关系等多颗粒度、多层次语义单元的关联之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值