NLP自然语言处理-机器学习和自然语言处理介绍-知识抽取构建流程
1.什么是知识抽取
知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
知识抽取的三个基本任务:
实体抽取:实体抽取抽取文本中的原子信息元素,通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签,具体的标签定义可根据任务不同而调整;
关系属性抽取:通常我们说的三元组(triple) 抽取,实体-属性-属性值,实体A-关系-实体B;
事件抽取:从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。
2.知识抽取和图谱构建的关系
3.知识抽取基本流程
3.1知识抽取-实体抽取
3.1.1概念介绍
3.1.1.1什么是实体抽取
又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比。
3.1.1.2实体抽取方法
实体抽取方法主要有基于统计学的方法和基于深度学习方法,基于统计学的方法主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF),基于统计方法的对特征选择要求较高,对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程,在特征学习方面具有较大优势,采用句子嵌入到CNN-CRF中,自动学习特征,对实体进行分类,提取的LSTM-CRF ,BiLSTM-CRF模型,对实体识别提高了一个新的高度。
![在这里插入图片描述](https://img-blog.csdnimg.cn/8cb444d29a42451c9cb6f26b7c01f438.png
3.1.2模型构建
3.1.2.1模型介绍
Bert+Bilstm+crf模型:基于字向量的BiLSTM+CRF实体识别方法,输入的是句子中各个字的char embedding,char embedding是BERT模型字向量表征;输出的是经过BiLSTM-CRF模型得到的每个单词对应的预测标签。
3.1.2.2模型实现过程
Bert+Bilstm+crf结构图如下图所示,总共有三层,分别是表示层、BILSTM层、CRF层。
1.表示层
模型第一层是表示层,利用预训练的BERT语言模型初始化获
NLP自然语言处理-机器学习和自然语言处理介绍(五)
最新推荐文章于 2023-01-13 21:29:14 发布