standford vs opennlp

最新推荐文章于 2021-02-24 07:04:12 发布

iteye_10365

最新推荐文章于 2021-02-24 07:04:12 发布

阅读量253

点赞数

分类专栏： lucene 文章标签：工作

本文链接：https://blog.csdn.net/iteye_10365/article/details/81924667

版权

lucene 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

重新训练的模型主要针对短角色，即词串数不大于3的角色，这是因为考虑到在实际环境下一般人难以输入长句，一般口语化的句子其实都比较短。手工测试训练后的效果至少不比之前的模型差。然而，使用stanford parser为基础的语义分析有一个致命的缺点：分析严重受制于stanford parser的结果，而stanford parser是将分词、词性标注都集成在一起，难以使用第三方的分词器和词性标注器，从而导致parser结果不可控。因而我的想法是放弃使用stanford parser，而采用shallow parser。shallow parser如果是在gold pos前提下的准确率要高于stanford parser。shallow parser的主要问题是必须在之前先进行分词与词性标注（POS）。
目前我主要关注两个POS tagger，一是stanford tagger（使用ME模型）；二是opennlp（使用ME模型）。stanford tagger是一个比较大而全的tagger，支持标注、训练等任务，而且不经任何加工即可直接使用（模型已经被训练获得），因而是一个富项目。opennlp的tagger代码则比较简单，使用前必须先经过加工训练。这两个项目的缺点在于缺乏必要的文档，stanford tagger难以明白用到哪些特征，而opennlp难以一下子入手。
另外，这个工作在当前的项目中到底有多大的价值本身也难以评估，就怕花了时间，效果却不甚明显。

iteye_10365

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
standford vs opennlp

重新训练的模型主要针对短角色，即词串数不大于3的角色，这是因为考虑到在实际环境下一般人难以输入长句，一般口语化的句子其实都比较短。手工测试训练后的效果至少不比之前的模型差。然而，使用stanford parser为基础的语义分析有一个致命的缺点：分析严重受制于stanford parser的结果，而stanford parser是将分词、词性标注都集成在一起，难以使用第三方的分词器和词性标注器...
复制链接

扫一扫