基于Gate的ANNIE插件的中文信息抽取

        在上一篇文章基于Gate的中文信息抽取API调用方式--未成功中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。

       ANNIE是Gate中用于英文信息抽取的插件,可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展,包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\resource\gazetteer,后缀名为lst词表文件中存放着词语,词表以UTF-8编码,每个词语独立一行。Gate需要一个索引文件确定词表文件以及类别之间的对应关系,一般为lists.def,内容形如

airports.lst:location:airport

其中airports.lst为词表文件,location是为词表指定的主要类型,airport为指定的次要类型。这些词表会编译成有限状态机,用于后续过程调用。

      语法规则指定需要识别的特定类型,以jape为后缀的文件均是存放的语法规则,放置目录为ANNIE\resource\NE,可以根据自己的需要进行扩展。main.jape存放着所需要的所有规则文件名称。

      具体的代码和执行过程与前一篇中的内容一致,主要区别在于加载ANNIE。

	public void initAnnie(){
		Out.prln("Initialising ANNIE...");
		try {
			annieController = (SerialAnalyserController) PersistenceManager.loadObjectFromFile(new File(new File(Gate.getPluginsHome(),ANNIEConstants.PLUGIN_DIR), ANNIEConstants.DEFAULT_FILE));
		} catch (PersistenceException e) {
			logger.error(e.getMessage());
			e.printStackTrace();
		} catch (ResourceInstantiationException e) {
			logger.error(e.getMessage());
			e.printStackTrace();
		} catch (IOException e) {
			logger.error(e.getMessage());
			e.printStackTrace();
		}

		Out.prln("...ANNIE loaded");
	} 

执行结果良好,能够达到我的需要。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值