实体相似度计算方法-----分类

实体相似度计算方法

A. 聚类的方法

  1. 分类:层次聚类,相关性聚类,Canopy+k-means
  2. 方法详情
    1) 层次聚类:通过计算不同类别数据点之间的相似度对在不同的层次的数据进行划分,最终形成树状的聚类结构。
    2) 相关性聚类:
    3) Canopy+k-means

B. 聚合的方法

  1. 分类
    1) 加权平均:w1sim (?1, ?1)+…+wNsim (??, ??)
    2) 手动制定规则:??(?1, ?1)>T1 and (or) …. ???(?i, ?i)> Ti
    3) 分类器:逻辑回归,决策树,SVM和条件随机场等,可以结合集成学习改善单一分类器的缺陷
  2. 存在的问题和解决方案
    问题:训练集的生成;分类不均衡(更多不匹配的记录对);误分类;最关键的问题是需要生成训练集合
    方案:无监督/半监督(EM,生成模型等);主动学习(众包等)

C. 知识表示学习的方法

  1. 使用TransE模型的方法(2017)https://github.com/thunlp/IEAKE
    1)联合知识嵌入:将两个KG的三元组糅合在一起共同训练,并将预链接实体对视为具有SameAS关系的三元组,从而对两个KG的空间进行约束,通过带参数共享和软对齐的TransE实现
    2)具体实现
    算法输入:知识图谱的三元组和已经对齐的实体(用于学习联合知识的词向量)
    步骤
    a. 知识向量:通过TransE和它的扩展方法PTransE获得两个知识库分别学到自己的知识向量,通过联合向量将这些知识向量合并到同一个语义空间
    b. 联合向量:,联合向量由已经对齐的实体获得,具体的生成方式使用了如下三种模型:Translation-based模型;Linear Transformation模型;Parameter Sharing模型
    c. 迭代对齐:在合并的语义空间通过实体之间的语义距离实现实体之间的对齐,语义距离的计算方法依赖联合向量的生成模型,对于前两种使用能量函数,定义为9和10,最后一种使用能量函数
    在这里插入图片描述
    能量函数的值小于阈值,认为两个实体相似。使用新对齐得到的实体对更新联合向量和找到新的实体对,迭代学习联合向量和实体对齐采用了硬对齐和软对齐两种策略。
    硬对齐:对于已经对齐的实体对(e1,e2),
    软对齐:
    在这里插入图片描述
    在这里插入图片描述
    关键点
    a. 双向监督训练:两个KG单独进行训练,使用预链接数据交替进行监督。
    b. 对齐实体:KG向量训练达到稳定状态之后,对于KG1每一个没有找到链接的实体,在KG2中找到与之距离最近的实体向量进行连接,距离计算方法可采用任何向量之间的距离计算,例如欧几里德距离。
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值