知识体系构建

这里所指知识体系,相当于 某一领域 知识图谱的 知识骨架,涵盖了 某一领域的 概念,各类概念间 具有的 层级关系(上下位关系),属性关系,以及其他关系。
知识体系构建 有 人工构建 和 自动学习 两种方法。主要 想总结一下 自动构建 的机理,人工构建法 简单带过。

1,人工构建:
人工构建的知识体系,质量高,但,成本也高。
在构建 some field 的 知识体系 时,需要相关领域专家的介入,构建过程 可分为如下 六 个阶段:
1)确定领域及任务:明确 知识图谱 应用领域,以及 细分方向;
2)体系复用:利用 领域内现有的一些知识图谱,复用其知识体系,避免从零开始,耗费过多 时间,人力,物力。
3)罗列要素:根据 应用场景,尽可能多的罗列出 既定场景 中 可能出现的术语。
4)确定分类体系:根据 上一步中 罗列的要素,归纳总结,确定分类体系。
5)定义属性及关系:定义各个概念应有的属性,以及 不同概念间的各种关系,如:层级关系,其他关系。
6)定义约束:定义 各类关系 的 值域和定义域,避免出现异常值。

2,自动构建
自动构建,即通过机器学习,从语料中抽取 相关领域 术语,这些terms包括:概念,关系(属性/层级/其他)。抽取完毕后,进一步 利用机器学习算法(如:层次聚类),对抽取的概念进行层级划分,到此,知识体系构建基本完成。
根据训练语料的特性,可以 将 自动构建 分为3种 类型:基于结构化数据的知识体系学习;基于半结构化数据的知识体系学习;基于非结构化数据的知识体系学习。

1)基于结构化数据的知识体系学习
结构化数据 包括 企业私有数据,网络表格数据,以信息框呈现的数据,以及 许多 垂直领域站点的 数据。
结构化的数据组织形式 规则明显,容易抽取,结果精确,但是,此类结构化数据 规模普遍较小,知识覆盖度有限,不容易获取。因此,仅靠 结构化数据,无法完成 知识体系的构建,质有量不足。

2)基于半结构化数据的知识体系学习
半结构化数据 组织形式的复杂度 介于 结构化数据 和 非结构化数据 之间,结构松散,模式不统一,虽有一定的 规则可循,但又 不全然能够用统一规则抽取出来。如:网页中的一些 隐士列表 或者 表格。
较结构化数据,其抽取结果噪音较大。

3)基于非结构化数据的知识体系学习
基于非结构化数据的 知识体系 学习,即为,基于 文本信息 的 知识体系学习,该方法的实现需经过3个steps:

step1:知识体系概念的确立

在这一步中,主要是利用 NLP 模型,对文本中的 实体 进行抽取,尽可能多的形成候选术语,then,对候选术语进行一系列操作,最终确立知识体系的概念。关于概念的形成过程,将分2步进行详述:
step 1.1 利用现有语料 尽可能多的形成候选术语
候选术语的生成(抽取)可以 采用2种方法:“基于规则/模式的抽取” and ”基于统计学习的抽取“。
”基于规则/模式的抽取“ ,核心在于 规则/模式 的构建,不再赘述。
”基于统计学习的抽取“,首先要利用NLP工具,对文本进行 ”分词-词法句法分析-抽取实体“,所得实体 即为 候选实体。
在这一步中得到的候选实体/术语 具有很大的噪音,可以利用 统计分析方法 对候选术语进行筛选:

基于 统计分析方法 的 候选术语筛选:
专业术语 与 普通实体,在 ”领域文本 和 一般文本“ 中的 分布模式 必然不同,可以利用这一特点,完成 候选术语的筛选:
实操中,可以利用 ”领域术语在领域内出现的频率会显著高于在领域外出现的频率“ 这一特点,使用一些数学模型来定量刻画候选术语的统计特性,并根据threshold,将量化值不达标的候选术语去除。
可用于定量刻画 候选术语的数学模型 列举: 互信息(MI);词频-逆文档频率(TF-IDF);术语相关频率(RTF);

通过上述步骤可以得到置信度较高的 候选术语。
但是,术语 并不等于 概念。如:”电脑“,”计算机“ 是 两个不同的术语,但是却都指向同一个概念。
为将候选术语 转化为 知识体系中的概念,需要对 候选术语 进行聚类,将语义相近(同义词)的术语归为一个概念。
step 1.2 术语合并 to 概念
同义词的识别方法有2中:
way1:基于词典的方法:

可以利用现有的词典资源来获取词汇的同义情况,可用词典如:WordNet,HowNet,同义词词林 等。

way2:基于统计的方法:

假设同义词具有相同的上下文,基于该假设,在大规模语料上进行 词汇表示学习,并基于 词汇的向量化表示,对词汇进行聚类,将属于同一概念的 术语 归为一类。

step2:分类体系的构建

分类体系的构建,实际上是要获取不同概念之间的 继承关系。
其构建方法有2:
“基于词典的方法”

如:利用词典WordNet进行上下位关系分析;

"基于统计的方法“

利用层次聚类的方法 确定不同概念之间的继承关系;

这2种方法与 ”同义词识别“ 方法 类似。

step3:概念 属性及关系 的抽取

”属性and关系“,也可以看作是 一种 概念。二者抽取过程 与 ”概念的抽取过程“类似。

…非结构化数据 介绍…
所谓非结构化数据,即为我们日常所见的文本,对于这类数据的抽取 无明显规律可循,但其包含信息量丰富,因此,是工业界和 学术界的研究重点。
文本信息抽取主要包含如下几个任务:实体识别,实体消歧,关系抽取,事件抽取。对这类信息的抽取,以往主要采用 基于统计机器学习的方法,现在 将 基于统计机器学习+神经网络 联合使用,效果佳。
**实体识别:**所谓实体识别 就是对句子中出现的 特定实体 进行识别摘取的过程,根据 用户需要,实体可以指不同的事物,如:时间,人名,公司名,等等。
目前常用的实体识别方法主要为:LSTM+CRF,以及由此衍生的许多变种。(知识有一阵没更新了,maybe outdated)
**实体消歧:**该任务有2个方向:实体链接 and 实体聚类。
实体链接:该任务是指 抽取的实体,在现有知识图谱中都已存在,其目标是 将抽取的实体 关联到 知识图谱现有实体 上,从而完成消歧目的。(由于知识图谱中的实体均有自己唯一的标识,因此,链接的过程,即为消歧的过程)

实体链接 的 本质 是 实体之间的相似性比较,完成相似性比较,需要确认几点:
1,用于相似性比较的模型选取。
2,实体特征的表示:人工构建(繁琐且需相关专业人员参与) and 神经网络—语言模型 构建(给定语料库,训练实体的 向量表示)
3,相似性规则设定:the simplest way,设定一个阈值,来判断实体之间是否具备相似性。

实体聚类:这类任务是指,抽取的实体 在现有知识图谱中并不存在,要完成对他们的消歧任务,需要采用 cluster 算法,将具有相似意义的 实体聚集在一起,以此来 完成 实体消歧的任务。

实体聚类的工程实现需确定几点:
1,选择合适的 相似度计算 表达式;
2,实体的特征表达:传统特征工程 and 神经网络自动学习 两种方式;
3,根据实际任务设定 cluster 数量,阈值 等参数;

**关系抽取:**其目标是抽取同一句子中两个实体的语义关系。关系抽取任务可分为3类:关系分类,属性抽取,关系实例的抽取。
关系分类:给定一个sentence,以及其中两个“实体”,求解:两实体之间存在什么样的语义关系;
属性抽取:给定一个sentence,及 其中一个实体,求解:该实体的 某个属性 值;
关系实例抽取:给定一个语料库,求解:其中所有的 关系对;
已有关系抽取方法可分为:有监督关系抽取,无监督关系抽取,弱监督关系抽取,以及 开放关系抽取;
有监督关系抽取:以一个人工标注的语料库为traindata,训练一个机器学习模型,来识别sentence中的关系对:R<item1,item2>;

labeled_sentence -> Model -> Relation<item1,item2>
Model(labeled_sentence) = Relation<item1,item2>
iteration -> until reach to threshold,将此时的Model结果作为 final result;

无监督关系抽取: 此类方法可以用于关系抽取的子任务:关系分类;

item1,item2 已知,现根据无监督ML,对二者的关系进行分类(假定,关系类别给定)
assume:item1 + relation = item2
relation = item1 - item2
将实体进行数值化表达(by 传统特征工程 和 自动学习)
通过上述等式可得 relation 的 数值化表达
选则 “聚类模型 + 种子实例”,通过cluster的方式,判定每对实体 的 关系类别;

弱监督关系抽取:其核心思想是:根据已有的少量标记数据,训练出一个 关系抽取 模型;利用训练好的模型进行实例抽取,从中取出置信度较高的抽取结果,将其加入 训练集;用扩充后的 训练集 重新训练模型;
上述过程,反复迭代,直到模型置信度达到要求;
开放关系抽取:其主要特定为“不确定”:关系类别不确定,语料来源不确定。其大体步骤如下:
step1:确定 语料来源,产生训练集(可用 bootstrap + 简单规则 的方式,不断iteration,产生训练集;此种方法缺点是:“容易产生语义漂移,新加入的训练数据持有的noise,会随着Iteration,不断的注入新的 训练数据,从而导致 traindata noise不断增加);
step2:根据模型抽取实例(为了更好的判别一个sentence中2个item是否具有关系,可以提前构建一个二分类模型,判断一句化是否存在关系,从而降低 抽取sentences的数量)
step3:针对关系类别不定这一问题,可 人工规定,或者 通过聚类 来形成关系类别;

参考:https://www.jianshu.com/p/786d0f3ae51d

**事件抽取:**从描述事件的文本中抽取出用户感兴趣的事件,并以结构化的形式呈现出来。
现有事件抽取方法可分为:基于模式匹配的事件抽取 and 基于机器学习的事件抽取。
上述两种方法基本思路,与关系抽取方法类似,不再赘述。

Reference:《知识图谱》赵军 Chapter 3

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值