- 博客(1)
- 资源 (8)
- 收藏
- 关注
原创 实时重复文章识别——SimHash
一、背景介绍 在前边的文章中,我们采用的是用google的Doc2Vec模型来识别重复文章的,从线上运行的效果来看,它的准确率是比较高的。当然,这是建立在把所有的文章都当做训练数据来训练Doc2Vec模型的基础上的,它推断出一篇文章的向量之后再去做相似计算的效果是不太好的。况且,训练模型的耗时是比较长的,因此,这种模型的适用性只适合于离线计算文章之间的相似,并不适合实时识别重复文章,由于我们现
2017-06-24 11:07:40 2397
ActionScript.chm
ActionScript帮助文档,用于 Adobe® Flash® Professional CS5 的 ActionScript® 3.0 参考
2011-10-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人