1【NLP项目-人工智能辅助信息抽取】知识图谱、信息抽取及规则系统

目录

一、知识图谱的概念

​二、信息抽取

1. 信息抽取案例

2. 信息抽取概念

三、自然语言理解的本质

四、信息抽取的主要任务

五、知识图谱的构建 

​构建糖尿病知识图谱

​1. 实体体系 

2. 关系体系 

​3. 标注工具:brat 

4. 实体分布分析 

​5. 实体内容探索

六、AC自动机 

1. KMP算法

​2. Trie树 

​3. AC自动机原理

4. pyahocorasick 

七、正则表达式 

​1. 正则表达式语法

八、基于规则的信息抽取

​九、NER研究进展


任务简介:

了解信息抽取的基础知识。

详细说明:

本节引入知识图谱的概念,介绍信息抽取进行知识图谱的基础知识。通过一个具体的比赛数据,介绍知识图谱构建与信息抽取问题的定义。本节介绍知识图谱的概念,通过具体的案例理解知识图谱的应用。

一、知识图谱的概念

知识图谱是谷歌提出的,分别在谷歌和Bing中搜索迪丽热巴的身高。谷歌直接将迪丽热巴的身高输出,从语义上更好地理解查询的内容;Bing基于关键字匹配的搜索,将搜索的词与文本内容进行匹配再展示出来。

二、信息抽取

1. 信息抽取案例

2. 信息抽取概念

三、自然语言理解的本质

四、信息抽取的主要任务

 

任务简介:

了解信息抽取的基础知识

详细说明:

本节引入知识图谱的概念,介绍信息抽取进行知识图谱的基础知识。通过一个具体的比赛数据,介绍知识图谱构建与信息抽取问题的定义。本节介绍信息抽取问题的定义,通过工业界的一个实际的案例,如何通过信息抽取的方式构造知识图谱。

五、知识图谱的构建 

构建糖尿病知识图谱

1. 实体体系 

2. 关系体系 

3. 标注工具:brat 

文件标注工作基于brat软件,http://brat.nlplab.org/。其中.txt文件为原始文档,.ann文件为标注信息,标注实体以T开头,后接实体序号,实体类别,起始位置和实体对应的文档中的词。如果需要在brat软件中查看标注结果,需要添加.conf文件。 

4. 实体分布分析 

5. 实体内容探索

实体之间有重叠:
每日2次和2次/d其实是一样的。
低血糖既可以出现在症状,又可以出现在疾病名称中。 

思考:如何通过已标注的结果的规律,进行实体抽取? 

 

任务简介:

如何通过规则进行信息抽取

详细说明:

本节将介绍规则系统中常用的正则表达式与AC自动机,首先对其算法的原理与应用场景进行详细讲解,然后结合正则表达式与AC自动机开发一个信息抽取系统。

六、AC自动机 

用到了两个东西,一个是KMP的思想(注意是思想不是算法),一个是Trie树
Trie树在这里是用来放字典中的单词的,这样可以使得我们一次匹配多个单词,然后用KMP的算法来使得匹配失败后不进行根结点的回溯。

1. KMP算法

2. Trie树 

3. AC自动机原理

4. pyahocorasick 

调用开源的pyahocorasick进行匹配

测试代码:

import ahocorasick as ah
A = ah.Automaton()
words = ['口服','注射','皮下注射','腹腔注射','静脉','静脉注射','静滴','CSII']
for idx , key in enumerate(words):
    A.add_word(key,(idx,key))
A.make_automaton()
haystack = '胰岛素强化治疗方案包括基础-餐食胰岛素治疗方案[多次皮下注射胰岛素或持续皮下胰岛素输注(CSII)]或预混胰岛素每天注射'
for end_index ,(insert_order,original_value) in A.iter(haystack):
    start_index = end_index - len(original_value)+1
    print(start_index,end_index+1,original_value)
    assert haystack[start_index:start_index+len(original_value)] == original_value
 

七、正则表达式 

1. 正则表达式语法

这个在JS中进行网页信息校验的时候用的比较多,例如:注册邮箱是否填写规范、身份证是否合法。
具体教程:点这里 

八、基于规则的信息抽取

九、NER研究进展

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本课程隶属于自然语言处理(NLP)实战系列。自然语言处理(NLP)是数据科学里的一个分支,它的主要覆盖的内容是:以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP以及它的组件,我们可以管理非常大块的文本数据,或者执行大量的自动化任务,并且解决各式各样的问题,如自动摘要,机器翻译,命名实体识别,关系提取,情感分析,语音识别,以及主题分割等等。一般情况下一个初级NLP工程师的工资从15万-35万不等,所以掌握NLP技术,对于人工智能学习者来讲是非常关键的一个环节。【超实用课程内容】 课程从自然语言处理的基本概念与基本任务出发,对目前主流的自然语言处理应用进行全面细致的讲解,包括文本分类,文本摘要提取,文本相似度,文本情感分析,文本特征提取等,同时算法方面包括经典算法与深度学习算法的结合,例如LSTM,BiLSTM等,并结合京东电商评论分类、豆瓣电影摘要提取、今日头条舆情挖掘、饿了么情感分析等过个案例,帮助大家熟悉自然语言处理工程师在工作中会接触到的常见应用的实施的基本实施流程,从0-1入门变成自然语言处理研发工程师。 【课程如何观看?】 PC端:https://edu.csdn.net/course/detail/25649 移动端:CSDN 学院APP(注意不是CSDN APP哦)本课程为录播课,课程2年有效观看时长,大家可以抓紧时间学习后一起讨论哦~【学员专享增值服务】 源码开放课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化下载方式:电脑登录https://edu.csdn.net/course/detail/25649,点击右下方课程资料、代码、课件等打包下载通过第二课时下载材料
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值