辅助信息抽取

最新推荐文章于 2022-03-15 14:43:41 发布

*Major*

最新推荐文章于 2022-03-15 14:43:41 发布

阅读量648

点赞数

本文链接：https://blog.csdn.net/qq_41375318/article/details/109801038

版权

$辅助信息抽取$

1.data_naming.ipynb
2.data_preprocessing.ipynb
3.ner_by_rule_or_dict.ipynb
4.ner_json_to_iboes.ipynb
5.ner_by_crf.ipynb
6.word_embedding.ipynb
7.BiLSTM + CRF进行NER.ipynb
8.nre_by_pcnn.ipynb
9.service_nre

知识图谱的概念与应用

知识图谱里通常用“实体（Entity）”来表达图里的节点，用“关系（Relationship）”来表达图里的边。

储存方式：三元组（entity1,entity2,relationship）

什么是信息抽取：

对于结构化与半结构化数据需要复杂表数据的处理和定义抽取的包装器等方式实现。

对非结构化的纯文本数据需要借助自然语言处理等技术来自动地提取出结构化信息。这个过程一般称为信息抽取。

在这里插入图片描述

自然语言理解本质是结构预测

自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析.语义角色标注等,都是在对文本序列背后特定语义结构进行预测。

信息抽取的主要任务：

命名实体识别
关系抽取
实体统一
指代消解

在这里插入图片描述

搭建一个知识图谱系统的重点并不在于算法和开发，其实最重要的核心在于对业务的理解以及对知识图谱本身的设计

步骤：

1．定义具体的业务问题
2．数据的收集&预处理
3．知识图谱的设计
4．把数据存入知识图谱
5 . 上层应用的开发,以及系统的评估。

标注工具：brat

http://brat.nlplab.org

正则表达式与AC自动机

AC自动机:
字符串搜索算法，用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度，约为字符串的长度加所有匹配的数量。
在这里插入图片描述
KMP算法：

KMP算法核心为部分匹配表，记录字符串中的前缀集合与后缀集合的交集中最长元素的长度。根据部分匹配表,可避免重复检查先前匹配的元素。
在这里插入图片描述

Trie树：

trie，又称前缀树或字典树，是一种有序树,用于保存关联数组，其中的键通常是字符串。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串，而根节点对应空字符串。一般情况下，不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值。

在这里插入图片描述

AC自动机：
AC自动机= KMP + Trie树
依靠构造一个有限状态机（类似于在一个trie树中添加失配指针)来实现。这些额外的失配指针允许在查找字符串失败时进行回退(例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart，失配指针就会指向前缀ca），转向某前缀的其他分支，免于重复匹配前缀，提高算法效率。
在这里插入图片描述