快速分词方法的问题

今天心血来潮,从www.nlp.org.cn上下载了快速分词的系统,然后测试一通,硬件:内存512,CPU 3.00 GHZ,建议或问题如下:

  • fastseg在自带语料的情况下速度很快,系统提示为19MB/s。这种速度闻所未闻。
  • fastseg在我提供的347MB的语料上,分词速度为3MB/s。速度很一般。
  • fastseg的两种分词结果差距很大,这种差距源于作者假想的测试条件,第一:语料规模小;第二:内存能够放下分词结果。这两个条件一般不会具备。
  • fastseg把分词结果放在内存之中,页面交换比较频繁,不知为何不写入文件?
  • fastseg的理论依据---《双数组Trie树算法优化及其应用研究》见《中文信息学报》2006年。在这篇文章中,作者的测试语料为8MB,系统内存为2G,最终分词速度为12MB/s。如果前面的怀疑和实现结果没有问题的话,则这篇论文的实验结果也值得怀疑或者商榷。
  • 分词系统的速度绝不应该简单地在小语料上测试得到,至少要有1G测试语料,否则很容易受到系统缓存的影响;另外也不容易和其他人的设计比较,因为每个人的系统都不一样。除非在单机上实现不同的分词方法。即使同一个人的实现也要保证实现条件完全一致,除了算法模块以外。
  • 论文呀,唉......
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值