领域术语解释

数据科学(Data Science)

InfoBox:

中文名:数据科学

外文名:Data Science

学科:跨学科研究领域

实质:数据全生命周期的相关技术和方法

基本简介:

        数据科学通过融合多学科交叉技术(包含统计学、数据分析、机器学习等)实现从数据中发现有价值的信息或规律。数据科学不同于计算机科学和信息科学,数据科学是一个跨学科领域,利用来自数学、统计学、计算机科学、信息科学等许多领域的技术和理论,在结构化和非结构化数据中探索数据潜在的模式[1][2],从中提取知识和分析结果[3],并将数据中的知识和分析结果广泛应用到各个领域[4][5]。

        数据科学研究领域主要包括数据准备(数据采集、数据输入、数据提取),数据管护(数据清理、数据存储、数据管理),数据处理(数据挖掘、数据建模、数据汇总),数据分析(预测性分析、回归、文本挖掘、定性分析),数据分析结果使用(数据可视化、商业智能、决策)等。随着大数据时代的到来,数据科学成为当今许多行业的重要组成部分。

发展历程:

        1962年,John Tukey首次提出了“数据分析”的概念[6],这是现代数据科学的雏形。1985年,C.F. Jeff Wu首次使用术语“数据科学”[7]。直到1992年,蒙彼利埃第二大学统计学研讨会的与会者承认,出现了一个新学科,该学科专注于各种来源和形式的数据,将统计学的既定概念和原则与计算相结合。1998年,Hayashi Chikio指出数据科学是一个新的、跨学科的概念,包括数据设计、收集和分析等[8]。2008年,图灵奖获得者Jim Gray提出了科学研究的第四范式:数据密集型的科学发现(Data-Intensive Scientific Discovery),推动了数据科学的发展[9]。

应用领域:

        数据科学是当今行业中争论最多的话题之一,它的受欢迎程度不断提高,众多公司已经开始实施数据科学技术来发展业务,提高客户满意度以及为高层决策提供支持。例如,在商场通过收集和分析用户购买数据,发现客户感兴趣的商品,识别市场中的新兴趋势,灵活调整销售策略;互联网公司通过对用户行为数据进行分析,为用户精准推送广告,提高广告投放的有效率;风险分析师通过大数据分析来发现业务中可能存在的风险,为领导层提供有价值的见解并推动业务决策;疾控中心可以通过融合不同来源的数据进行分析,绘制流感实时地图,预测流感的传播趋势;通过数据分析,制药厂可以分析几种药物组合及其对不同基因结构的影响,预测药物效果帮助进行药物开发,提高发现新药物的成功率;导航软件可以通过分析实时路况数据,为用户规划最优行驶路线,提高通行效率;政府可以通过分析辖区数据,对犯罪率进行分析和预测,灵活调配警力[9][10]。

数据集市(Data Market)

InfoBox

中文名:数据集市

外文名:Data Market

学科:数据科学,金融学

实质:一种新的数据经济形式和数据共享方式

基本简介:

        随着数据量持续激增,人工智能在决策中变得越来越重要,许多企业寻求使用外部数据来扩充或丰富内部数据集。因此,基于云的数据集市正以越来越快的速度出现,以将数据消费者与合适的数据销售商相匹配[1,2]。具体地,数据集市将帮助数据消费者减少定位和检索所需数据集的成本,并帮助数据销售商扩大其市场覆盖范围[3,4]。

        核心问题:数据集市中需要解决的核心问题主要有:(1)数据收集,可通过众包、自助数据提供方式,为数据集市提供多元化的数据[5,6];(2)数据交换的激励措施,数据收集者、用户和数据所有者可以为数据市场提供数据存储服务,通过存储数据来获得收益,此外,收集者可以出售这些数据获得收益,而用户可以使用这些数据来支持自己的数据分析业务[7,8];(3)标准化,数据集市需要通用的数据模型和接口,为买卖双方提供结构化的方式来交换数据[8];(4)定价公平,数据集市允许提供者或数据所有者设定自己的价格,同时也允许消费者选择从谁那里购买[3.9,10];(5)隐私安全,数据集市要保证数据传输的可靠性,设置防抵赖,防篡改的功能[9]。

        现有数据集市及其发展趋势:数据集市使政府或企业能够以新的方式访问数据,推动了数据经济的发展,让数据创造更多价值。一方面,通过数据交易可以直接获得收益,其中收益不必是金钱,还可以是数据或数据分析结果。另一方面,数据集市可以将数据管理中的一些任务外包给专门从事组装和管理数据集或以其他方式从数据中创造价值的第三方[11]。现有规模较大的数据集市如下表所示,其中第二列表示该数据集市是否支持异构数据的买卖;第三列表示集市是否存在元数据描述;最后一列表示该集市是否存在索引。根据Expert Market Research的数据,2020年全球大数据集市规模达到2080亿美元,预计将以10%的稳定复合年增长率增长,到2026年将达到4500亿美元。新的数据经济正在形成,数据可以以更简单、更实惠的方式创建、访问、租用和永久维护[12]。

图片

 

知识图谱(Knowledge Graph)

InfoBox:

中文名:知识图谱

外文名:Knowledge Graph

简写:KG

学科:自然语言处理、知识工程、人工智能、万维网

实质:利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀通用或领域知识,本质上可以看作是一种世界模型。

基本简介:

        知识图谱并没有统一的定义,一种常用的定义为“知识图谱是一种语义网络(semantic network);网络中的结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系”。一种更为宽泛的定义为“使用图(graph)作为基础表示模型来组织与利用大规模不同类型的数据,并表达明确的通用或领域知识。”

背景与动机:

        知识图谱是大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石(如图1)。

图片

图1 人工智能金字塔

        知识图谱并非全新技术和概念,而是多个相关领域不断发展融合的结果(如图2所示),其两个核心基因为人工智能(语义网络、本体)和万维网(语义网、链接数据)。

图片

图2 知识图谱相关概念演变

        从技术角度而言,知识图谱是人工智能、自然语言处理、(图)数据库、万维网与信息检索等多技术的交叉与融合(如图3所示);其中核心的两个要素为语义化表示的知识和图结构的数据;具体涉及的技术要素则可以分为表示、存储、抽取、融合、推理、问答、分析等七个方面。

图片

图3 知识图谱相关技术

        知识图谱的典型应用场景包括语义搜索、智能问答、智能推荐、辅助大数据分析、语言理解、视觉理解、设备互操作等,目前已经在电商、医疗、工业、金融、农业、政府、军事、公共安全等行业得到的广泛应用。做知识图谱一定要有系统工程的思维,若仅把握其中某一方面的技术来做知识图谱会犹如盲人摸象(如图4);知识图谱技术与工程涉及数据、算法、工具和系统四个维度。

图片

图4 知识图谱系统工程观

研究概况:

        随着知识图谱在各行业的应用落地,知识图谱技术的相关研究得到了大量学者的持续关注,主要包括以下几方面:1)知识表示学习;2)知识获取与补全;3)知识融合;4)知识存储与图计算;5)知识推理;6)基于知识图谱的问答[2]。

知识表示学习

        知识表示学习可以分为基于翻译距离模型(translational distance models)的方法和基于语义匹配模型(semantic matching models)的方法[3]。

知识获取与补全

        知识获取的主要任务包括实体识别、关系抽取、属性抽取及事件抽取等。近十年来知识获取相关研究主要聚焦于基于深度学习的方法,尤其是近三年以来,基于大规模预训练语言模型的方法取得了STOA效果[4];关系抽取还经常使用远距离监督学习的方法自动进行语料生成。知识图谱补全包括基于嵌入的排序补全算法、关系路径推理算法、基于深度强化学习的算法和基于规则的推理算法等[5]。

知识融合

        知识融合相关研究内容包括开源知识融合、知识图谱内部知识融合、多知识图融合、多语言知识融合以及多模态知识融合[6]。

知识存储与图分析计算

        知识存储与图分析计算相关研究主要侧重于RDF图谱数据管理、图数据查询、图谱计算框架等方面[7]。

知识推理

        面向知识图谱的知识推理通常可以分为基于规则的推理、基于知识表示学习的推理,基于神经网络的推理和混合推理[8]

知识应用

        知识图谱应用方面的研究包括基于知识图谱的语义检索、智能推荐、知识问答等[1][9]。

        知识图谱的研究趋势包括:(1)深度知识的表示与获取;(2)数据稀疏场景下的知识自动获取;(3)多模态知识图谱;(4)语言预训练与小样本学习;(5)事件与事理图谱。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值