大数据融合技术:问题与挑战
本文为《大数据融合研究:问题与挑战》的总结。
概述
数据的特点:
- 多元性——数据类型多样;数据内容“维度”多样;数据所涉及的知识范畴的“粒度”多样
- 演化性——指数据随时间或解释的变化而变化的特性
- 真实性——由实体的同名异义、异名同义表示以及关系的变化引起
- 普适性——指在认知范围内达成共识的特性,例如“老师”和“蜡烛”具有该特性
数据湖:数据集成的对象,即数据与知识的复合体。传统的关系型数据是先有模式(表)再有数据,而数据湖是先有数据再有模式。
大数据融合:建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中的“波纹”(即语义关联的紧密程度)。
大数据融合存在的问题:
- 割裂的多源异构数据
- 数据规模与数据价值的矛盾
- 跨媒体、跨语言的关联
- 实体与关系的动态演化
- 知识的隐含性
现有技术
普遍采用3V(海量、高速、类型多样)特性下的集成技术。关键技术:
- 模式/本体对齐:利用属性名称、类型、值的相似性以及属性之间的邻接关系