实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。随着中文网络百科的不断完善,可以从网络百科页面抽取出实体,并对不同来源的实体进行对齐,构建高质量的中文异构百科RDF知识库。百度百科与互动百科所包含的实体信息覆盖面广,更新及时,因此,如何从网络百科数据中抽取出实体信息并进行实体对齐,是构建中文RDF知识库的关键问题。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐,由于网络百科数据属于用户原创内容(User Generated Content,UGC)类型,不同用户编辑的数据质量参差不齐,仅通过用户编辑的实体属性信息难以准确判定是否为同一实体。
可以采用多种方法结合的方式:即分层使用。第一步,先用一种方法对齐,设定上界和下界。达到上界的就是。低于下界的就不是。在下界和上界之间的就递进的采取下一种方法进一步判断。
参考论文中文异构百科知识库实体对齐
中科院电子所专利: 面向知识图谱构建的细粒度中文属性对齐方法 旨在识别来自单一或多个数据源的属性之间存在的对应关系,例如,识别“生日”和“出生日期”之间的同义关系。