NLP自然语言处理-机器学习和自然语言处理介绍(五)

NLP自然语言处理-机器学习和自然语言处理介绍-知识抽取构建流程
1.什么是知识抽取
知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
知识抽取的三个基本任务:
实体抽取:实体抽取抽取文本中的原子信息元素,通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签,具体的标签定义可根据任务不同而调整;
关系属性抽取:通常我们说的三元组(triple) 抽取,实体-属性-属性值,实体A-关系-实体B;
事件抽取:从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。
2.知识抽取和图谱构建的关系
在这里插入图片描述
在这里插入图片描述
3.知识抽取基本流程
3.1知识抽取-实体抽取
3.1.1概念介绍
3.1.1.1什么是实体抽取
又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比。
3.1.1.2实体抽取方法
实体抽取方法主要有基于统计学的方法和基于深度学习方法,基于统计学的方法主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF),基于统计方法的对特征选择要求较高,对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程,在特征学习方面具有较大优势,采用句子嵌入到CNN-CRF中,自动学习特征,对实体进行分类,提取的LSTM-CRF ,BiLSTM-CRF模型,对实体识别提高了一个新的高度。
![在这里插入图片描述](https://img-blog.csdnimg.cn/8cb444d29a42451c9cb6f26b7c01f438.png
3.1.2模型构建
3.1.2.1模型介绍
Bert+Bilstm+crf模型:基于字向量的BiLSTM+CRF实体识别方法,输入的是句子中各个字的char embedding,char embedding是BERT模型字向量表征;输出的是经过BiLSTM-CRF模型得到的每个单词对应的预测标签。
3.1.2.2模型实现过程
Bert+Bilstm+crf结构图如下图所示,总共有三层,分别是表示层、BILSTM层、CRF层。
1.表示层
模型第一层是表示层,利用预训练的BERT语言模型初始化获

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皇儒无上

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值