今天心血来潮,从www.nlp.org.cn上下载了快速分词的系统,然后测试一通,硬件:内存512,CPU 3.00 GHZ,建议或问题如下:
- fastseg在自带语料的情况下速度很快,系统提示为19MB/s。这种速度闻所未闻。
- fastseg在我提供的347MB的语料上,分词速度为3MB/s。速度很一般。
- fastseg的两种分词结果差距很大,这种差距源于作者假想的测试条件,第一:语料规模小;第二:内存能够放下分词结果。这两个条件一般不会具备。
- fastseg把分词结果放在内存之中,页面交换比较频繁,不知为何不写入文件?
- fastseg的理论依据---《双数组Trie树算法优化及其应用研究》见《中文信息学报》2006年。在这篇文章中,作者的测试语料为8MB,系统内存为2G,最终分词速度为12MB/s。如果前面的怀疑和实现结果没有问题的话,则这篇论文的实验结果也值得怀疑或者商榷。
- 分词系统的速度绝不应该简单地在小语料上测试得到,至少要有1G测试语料,否则很容易受到系统缓存的影响;另外也不容易和其他人的设计比较,因为每个人的系统都不一样。除非在单机上实现不同的分词方法。即使同一个人的实现也要保证实现条件完全一致,除了算法模块以外。
- 论文呀,唉......