- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 word2vec实践及对关键词聚类
在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后对doc进行分类,对doc分类就变得容易了,而且准确率比较高,最近看到word2vec很火,使用的是无监督的机器学习,也就是不需要标注
2013-11-22 17:58:46 11181
原创 simhash(局部敏感哈希)的原理及应用
simhash广泛的用于搜索领域中,也许在面试时你会经常遇到这样的问题,如果对抓取的网页进行排重,如何对搜索结果进行排重等等。随着信息膨胀时代的来临,算法也在不断的精进,相似算法同样在不断的发展,接触过lucene的同学想必都会了解相似夹角的概念,那就是一种相似算法,通过计算两个向量的余弦值来判断两个向量的相似性,但这种方式需要两两进行计算向量的余弦夹角,计算量比较大,不能用于实时计算或是大数据量
2013-11-20 13:55:45 7066
原创 数组中超过N分之一的数字
寻找数组中超过一半的元素,这是一道十分经典和普遍的面试题了,实现起来比较容易,只是需要写技巧,将问题扩展就可以衍生到求数组中错过N分一的元素。/************************************************************************* > File Name: morethanharf.c > Auth
2013-11-01 17:53:02 2797
中科院分词器ICTCLAS,编译版(64bit)
2013-11-22
google谷歌发布基于B-Tree 的C++ 模板库cpp-btree-1.0.1.tar.gz
2013-04-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人