信息检索实践--文本属性抽取_设计一个基于传统标注的属性抽取系统cnsd-CSDN博客

本文链接：https://blog.csdn.net/lordofadventure/article/details/88691786

Day 1 2019.3.19

Day 2 2019.3.20

看《Python自然语言处理》

跑NLTK官网http://www.nltk.org/#natural-language-toolkit上的示例

更新下载NLTK包【1】

Day 3 2019.3.23

购买《Python和NLTK自然语言处理》

跑完了NLTK官网http://www.nltk.org/#natural-language-toolkit上的示例

基本下载完NLTK包

开始看《Python自然语言处理》第1章

Day 4 2019.3.24

完成NLTK包下载（使用管理员模式运行cmd）

《Python自然语言处理》切换为看英文版《Natural Language Processing with Python》继续Chapter 1 P19

Day 5 2019.3.25

Python读取Unicode格式中文文本

需要将txt文件另存为UTF-8格式才能正常读取【2】【3】

可以使用程序进行批量的格式转换【4】

似乎还存在其他方式比如以二进制格式读取【5】【6】【7】

Day 6 2019.3.31

尝试基于【7】实现Python批量读取Unicode格式中文文本

发生错误如下，考虑可能是python语言版本，类型转换方面的问题，下一步尝试解决这个问题

TypeError: 'filter' object is not subscriptable

Day 7 2019.4.1

试了半天，遇到若干可能是由于python2切换到python3而产生的移植问题，然而突然在stackoverflow上发现，其实在windows下，使用python3的话，只要使用“utf-16"格式打开就好了【8】

Day 8 2019.4.4

查看新发训练集，阅读相关中文文本抽取的博客

读到信息抽取与信息检索存在某种互补关系，了解命名实体（Named Entity）、实体关系（Entity Relation）、模板（Template）、场景（Scenario）、主题领域（Subject Domain）、场景模板（Scenario Template）、抽取模式（Extraction Pattern）、事件表述语句（Event Mention Sentence）、事件要素（Event Argument）等相关术语概念，文章介绍了“基于触发词探测的事件信息抽取方法：（1）探测特定的事件表述语句并确定事件的类别（2）从事件表述语句中识别事件要素及语义角色并填充到预定义的事件模板，文章推荐利用最大熵原理建立统计语言模型来确定候选事件语句的事件类别，对简单的事件表述语句，可能可以使用隐马尔可夫模型（HMM）进行事件信息抽取【9】，文章提到了使用条件随机场（CRF）对半结构化文本进行信息抽取【10】

Day 9 2019.4.14

阅读了一篇关于自动获取事件抽取模式的博客，博客指出传统的信息抽取系统大多是基于模式匹配的，而自动获取抽取模式的研究分为五类：手工创建抽取模式、基于人工语料标注进行抽取模式学习、基于人工语料分类进行抽取模式学习、基于WordNet/HowNet和语料标注进行抽取模式学习、基于种子模式和子扩展获取抽取模式；其中基于自扩展策略的中文文本抽取模式自动获取的进行步骤如下：（文档预处理阶段）句子切分/分成单句—》分词和词性标注（使用ICTCLAS汉语分词系统）—》中文NER（可能需要自定义时间表达式）—》浅层句法分析（如识别名词/动词短语）——（文档划分阶段）将输入的文档集依据现有的抽取模式集进行划分，根据和场景的相关性大小划分为场景相关/不相关文档集——（产生候选模式阶段）基于抽取模式中动词同义的扩展（可利用同义词词林和Word2Vec）、主动语态和被动语态之间的相互扩展、相同语义项从相关文档集中的扩展；博客还介绍了基于抽取模式的中文文本事件抽取，其模式匹配的过程分为两步：概念语义类搜索和事件模式匹配，其中事件模式匹配的过程如下：在对候选语句进行了分词、词性标注和场景相关类型的NER后，首先对候选语句过滤修饰性词语和中文停用词，接着生成候选语句的特征向量Ts，最后将当前模式对应的向量Tp和候选语句生成的向量Ts利用传统余弦公式计算相似度，当相似度达到阈值时，就认为该候选语句与当前模式匹配，是一个特定类型事件的表述语句，随后就可以通过一些处理将该候选语句中的信息填入事件模板中的槽位，完成信息抽取【11】