standford vs opennlp

重新训练的模型主要针对短角色,即词串数不大于3的角色,这是因为考虑到在实际环境下一般人难以输入长句,一般口语化的句子其实都比较短。手工测试训练后的效果至少不比之前的模型差。然而,使用stanford parser为基础的语义分析有一个致命的缺点:分析严重受制于stanford parser的结果,而stanford parser是将分词、词性标注都集成在一起,难以使用第三方的分词器和词性标注器,从而导致parser结果不可控。因而我的想法是放弃使用stanford parser,而采用shallow parser。shallow parser如果是在gold pos前提下的准确率要高于stanford parser。shallow parser的主要问题是必须在之前先进行分词与词性标注(POS)。
目前我主要关注两个POS tagger,一是stanford tagger(使用ME模型);二是opennlp(使用ME模型)。stanford tagger是一个比较大而全的tagger,支持标注、训练等任务,而且不经任何加工即可直接使用(模型已经被训练获得),因而是一个富项目。opennlp的tagger代码则比较简单,使用前必须先经过加工训练。这两个项目的缺点在于缺乏必要的文档,stanford tagger难以明白用到哪些特征,而opennlp难以一下子入手。
另外,这个工作在当前的项目中到底有多大的价值本身也难以评估,就怕花了时间,效果却不甚明显。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值