![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识融合
奋斗的风格
愿每一分付出都被温柔以待
展开
-
**Silk框架---silkframework.org---集成异质数据源的开源框架**
Silk框架—silkframework.org—集成异质数据源的开源框架官网简介主要功能:1、-在不同数据源中的相关数据项之间生成链接。2、-链接的数据发布者可以使用Silk设置从其数据源到Web上其他数据源的RDF链接。3、-将数据转换成结构化数据源:1)数据清洗,比如移除不需要的值2)不同属性之间的映射或者为新增加的属性生成值3)在不同数据格式之间转换。数据可以从诸如RDF,...原创 2019-06-06 20:09:40 · 535 阅读 · 1 评论 -
我的bert学习
Bert初识训练向量比较好用的工具(不需要对特定的任务修改模型,预训练时进行微调就可以满足各种任务)Bert:基于微调的语言模型。利用左右两侧的上下文信息,通过联合调节所有层中的双向Transformer来训练预训练深度双向表示,transformer作为特征提取器GPT:基于微调的语言模型。可以单项获得句子上下文更远的语言信息使用bertGoogle公布的模型(预训练模型):使用时进行...原创 2019-06-13 15:35:58 · 531 阅读 · 0 评论 -
初识知识融合
技术流程:主要包括本体对齐和实体匹配技术详情1. 数据预处理:统一实体的描述方式,语法正规化,数据正规化2. 分块:将可能组成实体对的放到一块,常用的方法有基于hash函数,邻近分块Falcon-AO:基于分而治之策略的大型本体匹配方法,包括三个阶段:划分本体,匹配分块,发现实体间的映射(本体是实体的抽象层次,比如人,书,国家)3. 均衡块中的实体数目,最简单的方法是map-reduc...原创 2019-06-13 15:32:49 · 935 阅读 · 2 评论 -
一些其他的实体对齐方案其他方法
一些其他的实体对齐方案其他方法1)Sematch(开源2017):用于知识图谱的语义相似性的开发、评价和应用的集成框架,其代码见github。 Sematch支持对概念、词和实体的语义相似度的计算,并给出得分。 Sematch专注于基于特定知识的语义相似度量,它依赖于分类( 比如 ) 中的结构化知识。 深度、路径长度 ) 和统计信息内容( 语料库与语义图谱) 。----基于wordNet,2)...原创 2019-06-13 15:28:50 · 978 阅读 · 0 评论 -
实体对齐之bert度量虚拟文档的相似度
基于Bert度量实体之间的相似度基本思想:将实体的对齐问题转换成文本之间的相似度度量问题准备工作:Bert的预训练模型(google提供了中文的预训练模型),实体相似度的标记文本A. Bert的预训练模型模型的输入(每个单词有三个embedding,把单词对应的三个embedding叠加)(1)token embeddings表示的是词向量,第一个单词是CLS,可以用于之后的分类任务...原创 2019-06-13 15:27:23 · 1376 阅读 · 1 评论 -
实体相似度计算方法-----分类
实体相似度计算方法A. 聚类的方法分类:层次聚类,相关性聚类,Canopy+k-means方法详情1) 层次聚类:通过计算不同类别数据点之间的相似度对在不同的层次的数据进行划分,最终形成树状的聚类结构。2) 相关性聚类:3) Canopy+k-meansB. 聚合的方法分类1) 加权平均:w1sim (原创 2019-06-13 15:19:05 · 5189 阅读 · 0 评论 -
实体虚拟文档构建之V-doc算法
关于V-doc算法基本思想:将实体表示成虚拟文档,通过向量空间的方式完成虚拟文档之间的匹配,从而实现匹配,可以充分利用邻接节点的信息虚拟文档:基于本体文本文件,将本体看成由三元组组成的RDF图结构,提取本体中各个实体的描述信息,提取的方法是为本体中的每一个实体构建一个说明文档。1) 构建虚拟文本:首先进行实体描述,假设e是本体中的一个实体,对e的描述有其有关的名字,标签,注释,和其他自然语言...原创 2019-06-13 15:14:22 · 561 阅读 · 0 评论 -
Silk-develop----链接规则编辑器模块
链接规则编辑器模块编辑分为两部分:左窗格包含给定数据集和限制的最常用属性路径。它还包含的所有可用运算符的列表可作为可拖动元素。右侧部分允许通过组合所选元素来绘制流程图。编辑:元素从左窗格拖到编辑器窗格:通过从元素端点绘制连接来连接元素;过连接元素来构建流程图,以一个元素结尾;辑器将在绘制新连接线时通过突出显示可连接元素来指导用户构建流程图。属性路径:要链接的两个数据源的属性路径将加载到...原创 2019-06-06 20:19:54 · 198 阅读 · 0 评论 -
silk官网介绍研读
框架三种不同的服务Silk Single Machine用于在单台机器上生成RDF链接。应该相互链接的数据集可以驻留在同一台机器上,也可以通过SPARQL协议访问的远程机器。 Silk Single Machine提供多线程和缓存。此外,使用筛选功能针对性链接Silk MapReduce用于使用多台机器的集群生成数据集之间链接。 Silk MapReduce基于Hadoop,可以在Ama...原创 2019-06-13 15:55:58 · 6271 阅读 · 0 评论