实体相似度计算方法
A. 聚类的方法
- 分类:层次聚类,相关性聚类,Canopy+k-means
- 方法详情
1) 层次聚类:通过计算不同类别数据点之间的相似度对在不同的层次的数据进行划分,最终形成树状的聚类结构。
2) 相关性聚类:
3) Canopy+k-means
B. 聚合的方法
- 分类
1) 加权平均:w1sim (?1, ?1)+…+wNsim (??, ??)
2) 手动制定规则:??(?1, ?1)>T1 and (or) …. ???(?i, ?i)> Ti
3) 分类器:逻辑回归,决策树,SVM和条件随机场等,可以结合集成学习改善单一分类器的缺陷 - 存在的问题和解决方案
问题:训练集的生成;分类不均衡(更多不匹配的记录对);误分类;最关键的问题是需要生成训练集合
方案:无监督/半监督(EM,生成模型等);主动学习(众包等)
C. 知识表示学习的方法
- 使用TransE模型的方法(2017)https://github.com/thunlp/IEAKE
1)联合知识嵌入:将两个KG的三元组糅合在一起共同训练,并将预链接实体对视为具有SameAS关系的三元组,从而对两个KG的空间进行约束,通过带参数共享和软对齐的TransE实现
2)具体实现
算法输入:知识图谱的三元组和已经对齐的实体(用于学习联合知识的词向量)
步骤
a. 知识向量:通过TransE和它的扩展方法PTransE获得两个知识库分别学到自己的知识向量,通过联合向量将这些知识向量合并到同一个语义空间
b. 联合向量:,联合向量由已经对齐的实体获得,具体的生成方式使用了如下三种模型:Translation-based模型;Linear Transformation模型;Parameter Sharing模型
c. 迭代对齐:在合并的语义空间通过实体之间的语义距离实现实体之间的对齐,语义距离的计算方法依赖联合向量的生成模型,对于前两种使用能量函数,定义为9和10,最后一种使用能量函数
能量函数的值小于阈值,认为两个实体相似。使用新对齐得到的实体对更新联合向量和找到新的实体对,迭代学习联合向量和实体对齐采用了硬对齐和软对齐两种策略。
硬对齐:对于已经对齐的实体对(e1,e2),
软对齐:
关键点
a. 双向监督训练:两个KG单独进行训练,使用预链接数据交替进行监督。
b. 对齐实体:KG向量训练达到稳定状态之后,对于KG1每一个没有找到链接的实体,在KG2中找到与之距离最近的实体向量进行连接,距离计算方法可采用任何向量之间的距离计算,例如欧几里德距离。