我们做自然语言处理的时候,经常需要抽取句子中提到的时间信息。本文就结合具体的例子介绍一下如何使用timex来进行时间信息的抽取,同时介绍一下其他可用的工具。
安装timex
timex是nltk_contrib中的一个模块。其中,nltk_contrib是一个大家贡献自然语言处理工具的一个库。而nltk就是一个著名的自然语言处理工具包了。至于为什么要另外开一个nltk_contrib,我也不是特别清楚,而且也找不到什么靠谱的解释。只有一个google group的问答,但也没说的特别清楚。如果打不开的话,可以看这个帖子。
安装timex的话,可以直接安装nltk_contrib。不过这个东西貌似不能用pip直接装,需要在github上下载之后(第一段有超链接),cd到其根目录,用下面的命令安装:
sudo python setup.py install
不过nltk_contrib有不少过时的东西,更轻量便捷的安装方式是,直接把timex的代码下载下来,在你的python项目中加一个timex.py即可。
要注意的是,timex依赖egenix-mx-base(一个提供各种工具的库,包括一些关于时间的类),可以通过pip进行安装:
sudo pip install egenix-mx-base
使用timex
本文例句参考了这篇文章
timex的使用很简单,只有两个函数,tag和ground,其中tag最常用
举个例子(下面假设你是用将timex的代码粘下来的方式安装的):
import timex
content ="Belfast