java分词框架_分词工具Hanlp基于感知机的中文分词框架

最新推荐文章于 2023-02-15 13:42:15 发布

胡格

最新推荐文章于 2023-02-15 13:42:15 发布

阅读量773

点赞数

文章标签： java分词框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32364911/article/details/114100996

版权

结构化感知机标注框架是一套利用感知机做序列标注任务，并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架，该框架利用1个算法解决3个问题，时自治同意的系统，同时三个任务顺序渐进，构成流水线式的系统。本文先介绍中文分词框架部分内容。

中文分词

训练

只需指定输入语料的路径(单文档时为文件路径，多文档时为文件夹路径，灵活处理)，以及模型保存位置即可：

命令行

java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task CWS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/cws.bin

API

public void testTrain() throws Exception

{

PerceptronTrainer trainer = new CWSTrainer();

PerceptronTrainer.Result result = trainer.train(

"data/test/pku98/199801.txt",

Config.CWS_MODEL_FILE

);

// System.out.printf("准确率F1:%.2f\n", result.prf[2]);

}

事实上，视语料与任务的不同，迭代数、压缩比和线程数都可以自由调整，以保证最佳结果:

/**

* 训练

*

* @param trainin

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java分词框架_分词工具Hanlp基于感知机的中文分词框架

结构化感知机标注框架是一套利用感知机做序列标注任务，并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架，该框架利用1个算法解决3个问题，时自治同意的系统，同时三个任务顺序渐进，构成流水线式的系统。本文先介绍中文分词框架部分内容。中文分词训练只需指定输入语料的路径(单文档时为文件路径，多文档时为文件夹路径，灵活处理)，以及模型保存位置即可：命令行java -cp hanlp.ja...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。