数据在收集、存储和使用的过程中,会因为系统或者人为原因,导致出现各种各样的不一致问题,这其中包括缩写、拼写错误、缺失等。这些问题的存在导致了数据中存在冗余和不一致。冗余、不一致的数据不仅造成了存储空间的浪费,更多地对后续的数据挖掘和数据分析造成了极大的阻碍。
在大多数的现实场景中,实体对齐(Entity Alignment)是用于找出单个数据集内或多个数据集间的所有指向同一个实体的记录的方法,这些记录我们称之为重复记录(duplicates)。实体对齐可以有效地将数据集中存在的冗余、不一致记录连接起来,从而为用户提供统一的数据视图。下图展示了实体对齐的通用框架结构图:
一、文本中的实体统一
给定2个实体,判断是否指向同一个实体的方法
1、相似度计算
Edit Distance、余弦相似度
2、基于规则
提前构建好实体的描述规则
3、有监督学习
二、基于图的实体统一
参考资料:
基于孪生循环神经网络的实体对齐算法研究