- 博客(6)
- 资源 (4)
- 收藏
- 关注
转载 google开源了内部使用的CityHash算法
<br /> <br />Google 发布了 CityHash 系列字符串散列算法。今天发布的有两种算法:CityHash64 与 CityHash128。它们分别根据字串计算 64 和 128 位的散列值。这些算法不适用于加密,但适合用在散列表等处。<br />Google 一直在根据其数据中心常用的 CPU 对算法进行优化,结果发现对大多数个人计算机与笔记本同样有效益。尤其是在 64 位寄存器、指令集级的并行,以及快速非对其内存存取方面。<br
2011-04-14 15:53:00 618
转载 [zz]Bloom Filter概念和原理
<br />http://blog.csdn.net/jiaomeng/archive/2007/01/27/1495500.aspx<br /> Bloom Filter概念和原理<br />焦萌 2007年1月27日<br /> <br />Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(fal
2011-04-13 22:25:00 175
原创 sparse_hash_table sparse_hash_set sparse_hash_map dense_hash_table/set/map
<br />看到之前的一份打印稿。描述了一个hash的组织结构。<br />大概是,对数据分group,每个group最多48个item。每个group有一个bitmap来标记对应节点是否存在,实际数据顺序存储在一个vector中,对于dense则是存一个完整的数组。<br /> <br />没明白这种设计有哪些好处和应用场景。 性能不大高。<br />暂记,估摸以后有用得到的地方。
2011-04-13 17:41:00 823
转载 jaccard相似度计算公式
<br />简单介绍一下Jaccard系数:广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(有另一种系数也称为Tanimoto系数)。该系数用EJ表示,由下式定义:<br />EJ(x,y)=(x*y)/(||x|*||x||+||y||*||y||-x*y)<br />其公式与余弦相似度的计算有点相似<br /> <br />http://hi.baidu.com/soulingm/blog/item/28ff4
2011-04-12 22:04:00 5925 1
转载 向量相关性
http://woodstudio.iteye.com/blog/141005 <br /><br /><br />Pearson相关系数 - Pearson's Correlation Coefficient<br /> <br /> <br />关键字: pearson's correlation coefficient Pearson相关系数用来衡量两个数据集合是否在一条线上面。其计算公式为:<br /><br /><br />一个具体的计算的例子:X Y<br />
2011-04-12 21:36:00 573
转载 [zz]创新工场笔试小记
<br />http://www.iteye.com/topic/769423<br /> <br />创新工场几道笔试题,欢迎大家讨论。1 基本情况<br />笔试题量很小,答题时间1个小时。<br /> <br />1道填空题,9道左右选择题,最后一道编程题。2 几个题目<br />第一题:<br /> <br /> C代码 int f(int x) { int c = 0; while(x!=0) { x = x & (x-1); c++;
2011-04-12 21:20:00 297
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人