NLP自然语言处理-机器学习和自然语言处理介绍（五）

最新推荐文章于 2023-01-13 21:29:14 发布

皇儒无上

最新推荐文章于 2023-01-13 21:29:14 发布

阅读量1.3k

点赞数 1

分类专栏： NLP 文章标签：自然语言处理人工智能 nlp

本文链接：https://blog.csdn.net/HUANGRUWUSHANG/article/details/128021661

版权

NLP自然语言处理-机器学习和自然语言处理介绍-知识抽取构建流程
1.什么是知识抽取
知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱。
知识抽取的三个基本任务：
实体抽取：实体抽取抽取文本中的原子信息元素，通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签，具体的标签定义可根据任务不同而调整；
关系属性抽取：通常我们说的三元组（triple）抽取，实体-属性-属性值，实体A-关系-实体B；
事件抽取：从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。
2.知识抽取和图谱构建的关系
在这里插入图片描述

3.知识抽取基本流程
3.1知识抽取-实体抽取
3.1.1概念介绍
3.1.1.1什么是实体抽取
又称命名实体识别（Named Entities Recognition，NER），主要任务是识别命名实体的文本范围，并将其分类为预定义的类别，学术上所涉及一般包含三大类，实体类、时间类、数字类和7个小类，比如人、地名、时间、组织、日期、货币、百分比。
3.1.1.2实体抽取方法
实体抽取方法主要有基于统计学的方法和基于深度学习方法，基于统计学的方法主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF)，基于统计方法的对特征选择要求较高，对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程，在特征学习方面具有较大优势，采用句子嵌入到CNN-CRF中，自动学习特征，对实体进行分类，提取的LSTM-CRF ,BiLSTM-CRF模型，对实体识别提高了一个新的高度。
![在这里插入图片描述](https://img-blog.csdnimg.cn/8cb444d29a42451c9cb6f26b7c01f438.png
3.1.2模型构建
3.1.2.1模型介绍
Bert+Bilstm+crf模型：基于字向量的BiLSTM+CRF实体识别方法，输入的是句子中各个字的char embedding，char embedding是BERT模型字向量表征；输出的是经过BiLSTM-CRF模型得到的每个单词对应的预测标签。
3.1.2.2模型实现过程
Bert+Bilstm+crf结构图如下图所示，总共有三层，分别是表示层、BILSTM层、CRF层。
1.表示层
模型第一层是表示层，利用预训练的BERT语言模型初始化获