知识抽取-理论知识

前言

最近接到两个NLP的项目任务,都涉及到从非结构化文本数据转化为结构化数据插入结构化数据库的任务,可以理解为知识抽取(Information Extraction)任务,本文参考网络文章和视频课程,并做一个简要总结。

参考连接

知识抽取(一)

信息抽取——关系抽取

涉及技术

  • 命名实体识别
  • 抽取实体关系
  • 实体统一
  • 指代消歧

应用

  • 问答系统
  • 扩充原有的知识库(knowledge base)
  • 法律、金融

关系抽取技术

涉及名称:三元组(truple)、 RDF store 、 知识图谱(属性图)

基于规则

  • 目前最主流
  • 根据人的经验写规则
  • 优点:不需要大量数据
  • 缺点:人的思维局限性

监督学习 (多分类问题)

准备:

  • 定义关系类型
  • 定义实体类型
  • 训练数据准备:标记好实体类型、实体之间的关系

特征工程(关键)

围绕实体提取特征

  • 基于单词的特征(bag of word feature)
  • pos feature :名词 ,名词, 动词,……
  • 实体类别:ORG PER……
  • steming
  • 位置相关的信息:两个实体间包含多少个单词?这句话在本文里的位置?
  • 句法分析相关特征(可忽略):
  • 依存文法特征(可忽略):

分类算法

  • svm
  • 神经网络
  • GBDT
  • ……
  • 可以现进行一个二分类,如果有关系再进行分类

半监督(有部分标注) & 无监督学习

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值