2013年11月_desionwang

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 word2vec实践及对关键词聚类

在搜索领域query的处理变得越来越重要，其中分类就是很重要的一环，对query分类是比较难的工程，因为query普遍较短，含有的信息（熵）很少，所以很难进行分类，普遍的方法是对query进行扩展，例如抓取搜索引擎的结果，或是直接将query扩展到对应的doc，然后对doc进行分类，对doc分类就变得容易了，而且准确率比较高，最近看到word2vec很火，使用的是无监督的机器学习，也就是不需要标注

2013-11-22 17:58:46 11181

原创 simhash（局部敏感哈希）的原理及应用

simhash广泛的用于搜索领域中，也许在面试时你会经常遇到这样的问题，如果对抓取的网页进行排重，如何对搜索结果进行排重等等。随着信息膨胀时代的来临，算法也在不断的精进，相似算法同样在不断的发展，接触过lucene的同学想必都会了解相似夹角的概念，那就是一种相似算法，通过计算两个向量的余弦值来判断两个向量的相似性，但这种方式需要两两进行计算向量的余弦夹角，计算量比较大，不能用于实时计算或是大数据量

2013-11-20 13:55:45 7066

原创数组中超过N分之一的数字

寻找数组中超过一半的元素，这是一道十分经典和普遍的面试题了，实现起来比较容易，只是需要写技巧，将问题扩展就可以衍生到求数组中错过N分一的元素。/************************************************************************* > File Name: morethanharf.c > Auth

2013-11-01 17:53:02 2797

Blogo ——Mac Wordpress博客编辑器

Blogo是一款离线写博客软件，目前只支持 wordpress 博客程序

2016-12-28

SQLCipher+for+Android+v3.1.0

SQLCipher for Android v3.1.0 不需要编译

2015-01-20

Quake3源代码

UAKE的开发商ID SOFTWARE 遵守GPL协议，公开了QUAKE-III的原代码，让世人有幸目睹Carmack传奇的3D引擎的原码。

2014-07-22

中科院分词器ICTCLAS，编译版（64bit）

中科院分词器ICTCLAS,已经实现了二进制程序，有相关的代码，运行比较简单，执行wordseg infile outfile就可以，可以用于对word2vec需要的语料进行分词

2013-11-22

google谷歌发布基于B-Tree 的C++ 模板库cpp-btree-1.0.1.tar.gz

谷歌开源团队近日发布了C++ B-Tree，这是一个C++模板库，实现了基于B-tree数据结构的有序内存容器。类似于STL的map、set、multimap和multiset模板，C++ B-tree也提供了btree_map、btree_set、btree_multimap和btree_multiset等模板。 B-tree（多路搜索树，并不是二叉的）是一种常见的数据结构。使用B-tree结构可以显著减少定位记录时所经历的中间过程，从而加快存取速度。这个数据结构一般用于数据库的索引，综合效率较高。由于B-trees可以保持磁盘寻道到最低限度，通常作为二次存储数据结构。对于内存中数据结构来说，将缓存未命中率保持在最低限度，可以产生更高的性能。C++ B-tree在搜索树时，通过在每个节点执行多个键比较，更好地利用了缓存。缓存行为的改善，可以使访问大型容器时的性能有显著提升。谷歌开源团队同时也表示，C++ B-tree容器也不是没有缺点，与标准STL容器不同的是，修改C++ B-tree容器，会令所有未在该容器中的迭代器失效。出于这个原因，谷歌在该库中还增加了一个“安全”容器版本，安全容器中的迭代器会保存当前key的副本，并会在使用迭代器时自动复位。

2013-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人