知识抽取概念
知识抽取包括三种要素:命名实体识别(NER)、实体关系抽取(RE)和属性抽取。属性抽取可以使用python爬虫爬取网站,较为简单,NER和RE作为知识抽取中的重要部分,也是NLP领域中非常关键的问题。
一、概念
命名实体识别与关系抽取是两个独立的任务,NER是在句子中找出具有可描述意义的实体,RE则是对两个实体关系进行抽取。可以说先进行NER后,再建立RE。
1.1实体与关系
实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容,比如医学领域内疾病、药物、生物体名称,或者法律学涉及到的专有词汇等。实体是构建知识图谱的主要成员。
关系是指不同实体之间的相互的联系。实体与实体之间并不是相互独立的,往往存在一定的关联。例如“马云”和“阿里巴巴”分别属于实体中的人名和机构名,而它们是具有一定关系的。
在命名实体识别和关系抽取之后,需要对所产生的数据进行整合,三元组是能够描述整合后的最好方式。三元组是指(实体1,关系,实体2)组成的元组,在关系抽取任务中,对任意两个实体1和实体2进行关系抽取时,若两者具有关系,则它们可以构建成三元组。例如一句话“马云创办了阿里巴巴”,可以构建的三元组为(“马云”,“创办”,“阿里巴巴”)。
1.2标注问题
监督学习中有三种问题,分别是分类问题、回归问题和标注问题。标注问题是根据输入的序列数据使用预先设置的标签进行依次标注。常用的序列标注任务有命名实体识别、词性标注、句法分析、分