实体关系分析
在等价的引用被转变和识别后,许多应用提出了另一个问题:这些实体间的多样化的关系是怎样的?这其中,第一个被探索的实体关系是家庭关系(Household Relationship),即不同的实体居住在同一个家庭里,营销公司最先看到这其中的价值。有趣的是,到目前为止,家庭关系仍是最难定义和管理的。对此最简单的定义方式是:住在同一个地方有着相同姓氏的人。这样的定义简单易行,但它并不能觉察文化和人口改变的导致的细微变化。例如,保留娘家姓的妻子,没有结婚的夫妻,妻子与前夫所生的孩子,以及数代同堂的大家庭。
家庭的概念也可以应用到业务实体,即某个业务实体是否拥有另一个业务实体或者是一个更大的实体的当地分支。由邓氏编码(D-U-N-S)闻名的邓白氏公司(Dunn & Bradstreet)对企业集团的概念(Corporate householding)进行了编码。现在它也是一个热门的研究领域(Madnick, Wang, Xian, 2004)。
探索实体关系是实体解析和数据挖掘之间的交集。数据挖掘是发现模糊的(或者不明显的)关系。记录或数据库实例的定义是一个明确的属性值之间的关系,即他们是相同的实体。ER可以被认为是数据挖掘,其目标是使等价的实体引用清楚明确。
就像小世界的假设(Watts, Stogatz, 1998),实体关系可以划分为不同的等级。ERA3可以被认为是选择相差为零级的引用,以代表他们的等价性。当两个实体有直接的关联,例如家庭关系,此时为1级差别。按传统的定义,所有的家庭成员共享一个姓氏和住宅地址,这个姓氏和地址是匹配的。如果是一个间接的关联的话,则称其有2级差别。例如,假设John和Bill合租一个公寓,而Bill和Tom是ABC俱乐部的的成员。虽然John和Tom没有见过,但他们有一个共同的关联就是都认识Bill。2级差别要求两者有两个或者以上的间接关联。
实体之间的关联,可以通过实体间已知的各种属性关联的组合来确定,例如共用的电话或邮箱。或者是如断言关系,像是电话号码间的通话记录或者邮局地址变更的记录。如同实体抽取过程,实体间关联网络的分析也有着大量可以利用的研究主体供从业人员进行研究。