前言
最近接到两个NLP的项目任务,都涉及到从非结构化文本数据转化为结构化数据插入结构化数据库的任务,可以理解为知识抽取(Information Extraction)任务,本文参考网络文章和视频课程,并做一个简要总结。
参考连接
涉及技术
- 命名实体识别
- 抽取实体关系
- 实体统一
- 指代消歧
应用
- 问答系统
- 扩充原有的知识库(knowledge base)
- 法律、金融
关系抽取技术
涉及名称:三元组(truple)、 RDF store 、 知识图谱(属性图)
基于规则
- 目前最主流
- 根据人的经验写规则
- 优点:不需要大量数据
- 缺点:人的思维局限性
监督学习 (多分类问题)
准备:
- 定义关系类型
- 定义实体类型
- 训练数据准备:标记好实体类型、实体之间的关系
特征工程(关键)
围绕实体提取特征
- 基于单词的特征(bag of word feature)
- pos feature :名词 ,名词, 动词,……
- 实体类别:ORG PER……
- steming
- 位置相关的信息:两个实体间包含多少个单词?这句话在本文里的位置?
- 句法分析相关特征(可忽略):
- 依存文法特征(可忽略):
分类算法
- svm
- 神经网络
- GBDT
- ……
- 可以现进行一个二分类,如果有关系再进行分类