这几天吧词组建立环节的代码重写了!用的是一个非常好的哈希算法,可以对20多万变长词进行散列,碰撞率极低,几乎没有!因为其中用到对不同频率字节的词组散列到不同位上去的方法。很好的解决了词库建立这一过程,时间从以前的7小时没有提取完只提取到6万词组左右----->现在20多分钟就可以提取16多万词的高效结果!!
真是值得欣喜!
不过现在词频矩阵等的计算还得想写好办法!大规模矩阵运算~~改进中....
转载于:https://www.cnblogs.com/riky/archive/2007/05/28/762001.html