OpenNLP中关于语言检测的语料训练

最新推荐文章于 2024-05-14 00:47:23 发布

碧玉笙

最新推荐文章于 2024-05-14 00:47:23 发布

阅读量825

点赞数

分类专栏： OpenNLP 文章标签： OpenNLP nlp openNLP训练 nlp语言训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/f1024557668/article/details/103871179

版权

因为项目的原因，需要使用到NLP的相关技术。当时是先使用过nltk，但是因为nltk主要是外国的语种支持的比较丰富，而且又是python要与项目集成也不太方便，后来找到OpenNLP，发现它相对来说，对于亚洲的语言有一些支持。因此使用上了，最近有空，就想细致的学习下OpenNLP的训练相关的东西，因为在项目里遇到了中文与日文中的汉字交叉的情况，且如果检测对象过短，对于检测结果也容易出现偏差的情况。好了，废话不多说，直接主题。
我们先从文档入手，在官网上的文档是很规范的，先找到Language Detector这个title，然后往下看到training，我们根据文档提示，发现其实我们的语料按照如下规范就可以了：
OpenNLP中关于语言检测的语料训练

注意几点：
1.文本文件中的一行就是一条语料，第一列是语种对应的ISO-639-3码，第二列是tab缩进，第三列就是语料文本
2.对于长文本，不要人为的去加换行
3.训练语料必须要有多个不同的语料信息，否则在训练时会报错

有了以上的语料文件，就可以通过几行简单的代码就能将其训练成我们需要的语言检测了

InputStreamFactory inputStreamFactory &#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OpenNLP中关于语言检测的语料训练

因为项目的原因，需要使用到NLP的相关技术。当时是先使用过nltk，但是因为nltk主要是外国的语种支持的比较丰富，而且又是python要与项目集成也不太方便，后来找到OpenNLP，发现它相对来说，对于亚洲的语言有一些支持。因此使用上了，最近有空，就想细致的学习下OpenNLP的训练相关的东西，因为在项目里遇到了中文与日文中的汉字交叉的情况，且如果检测对象过短，对于检测结果也容易出现偏差的情况。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。