《中文分词算法研究》

看完了才发现作者是经济管理学院的。

 

这是篇08年的论文。

 

目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等。

 

ICTCLAS( Institute of Computing Technology, Chinese Lexical Analysis System)是由中国科学院计算技术研究所研究的基于多层隐马尔可夫模型HMM的汉语词法分析系统

 

查全率Precision =分词结果中切分正确的总词数 / 分词结果中的总词数


查准率Recall =分词结果中切分正确的总词数 / 标准文本中的总词数


 

F1 = 2 ×Precison ×Recall / Precison +Recall

分词速度=分词文件大小 / 分词所用时间

 

根据这货的实验结果,ICTCLAS的查全率查准率F1比正向最大匹配法的好,分词速度慢了点。

转载于:https://www.cnblogs.com/StevenL/p/6818560.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值