java 中文词性标注_使用opennlp进行词性标注

最新推荐文章于 2024-04-04 09:32:13 发布

我说老李你说黑

最新推荐文章于 2024-04-04 09:32:13 发布

阅读量680

点赞数

文章标签： java 中文词性标注

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33417488/article/details/114215996

版权

本文详细介绍了如何使用OpenNLP库在Java中进行中文词性标注，包括POSTaggerME和ChunkerME的使用，以及模型训练过程，并提供了训练文本样式和标注说明。

摘要由CSDN通过智能技术生成

序

本文主要研究下如何使用opennlp进行词性标注

POS Tagging

词性(Part of Speech, POS)，标注是对一个词汇或一段文字进行描述的过程。这个描述被称为一个标注。

目前流行的中文词性标签有两大类：北大词性标注集和宾州词性标注集。现代汉语的词可以分为两类12种词性：一类是实词：名词、动词、形容词、数词、量词和代词；另一类是虚词：副词、介词、连词、助词、叹词和拟声词。

这块的技术大多数使用HMM(隐马尔科夫模型)+ Viterbi算法，最大熵算法(Maximum Entropy)。

OpenNLP里头可以使用POSTaggerME类来执行基本的标注，以及ChunkerME类来执行分块。

POSTaggerME

public static POSModel trainPOSModel(ModelType type) throws IOException {

TrainingParameters params = new TrainingParameters();

params.put(TrainingParameters.ALGORITHM_PARAM, type.toString());

params.put(TrainingParameters.ITERATIONS_PARAM, 100);

params.put(TrainingParameters.CUTOFF_PARAM, 5);

return POSTaggerME.train("eng", createSampleStream(), params,

new POSTaggerFactory());

}

private static ObjectStream createS

最低0.47元/天解锁文章

我说老李你说黑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 中文词性标注_使用opennlp进行词性标注

序本文主要研究下如何使用opennlp进行词性标注POS Tagging词性(Part of Speech, POS)，标注是对一个词汇或一段文字进行描述的过程。这个描述被称为一个标注。目前流行的中文词性标签有两大类：北大词性标注集和宾州词性标注集。现代汉语的词可以分为两类12种词性：一类是实词：名词、动词、形容词、数词、量词和代词；另一类是虚词：副词、介词、连词、助词、叹词和拟声词。这块的技术大...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。