《实体解析与信息质量》-1.2.5.实体关系分析

实体关系分析

在等价的引用被转变和识别后,许多应用提出了另一个问题:这些实体间的多样化的关系是怎样的?这其中,第一个被探索的实体关系是家庭关系(Household Relationship),即不同的实体居住在同一个家庭里,营销公司最先看到这其中的价值。有趣的是,到目前为止,家庭关系仍是最难定义和管理的。对此最简单的定义方式是:住在同一个地方有着相同姓氏的人。这样的定义简单易行,但它并不能觉察文化和人口改变的导致的细微变化。例如,保留娘家姓的妻子,没有结婚的夫妻,妻子与前夫所生的孩子,以及数代同堂的大家庭。

家庭的概念也可以应用到业务实体,即某个业务实体是否拥有另一个业务实体或者是一个更大的实体的当地分支。由邓氏编码(D-U-N-S)闻名的邓白氏公司(Dunn & Bradstreet)企业集团的概念(Corporate householding)进行了编码。现在它也是一个热门的研究领域(Madnick, Wang, Xian, 2004)。

探索实体关系是实体解析和数据挖掘之间的交集。数据挖掘是发现模糊的(或者不明显的)关系。记录或数据库实例的定义是一个明确的属性值之间的关系,即他们是相同的实体。ER可以被认为是数据挖掘,其目标是使等价的实体引用清楚明确。

就像小世界的假设(Watts, Stogatz, 1998),实体关系可以划分为不同的等级。ERA3可以被认为是选择相差为零级的引用,以代表他们的等价性。当两个实体有直接的关联,例如家庭关系,此时为1级差别。按传统的定义,所有的家庭成员共享一个姓氏和住宅地址,这个姓氏和地址是匹配的。如果是一个间接的关联的话,则称其有2级差别。例如,假设JohnBill合租一个公寓,而BillTomABC俱乐部的的成员。虽然JohnTom没有见过,但他们有一个共同的关联就是都认识Bill2级差别要求两者有两个或者以上的间接关联。

实体之间的关联,可以通过实体间已知的各种属性关联的组合来确定,例如共用的电话或邮箱。或者是如断言关系,像是电话号码间的通话记录或者邮局地址变更的记录。如同实体抽取过程,实体间关联网络的分析也有着大量可以利用的研究主体供从业人员进行研究。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值