![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 91
大数据玩家
致力于大数据源码研究、底层原理研究!
展开
-
一文详解GCC7、CUDA 11.2、CUDNN部署
在部署之前,需要了解下python-tensorflow-cuDNN-CUDA版本对应关系,以便能够完全兼容下文以此版本为例部署gcc-7.3.1cuda-11.2。原创 2023-01-09 14:23:40 · 1532 阅读 · 0 评论 -
海量文本Simhash去重,毫秒级去重判断 | 抽屉原理
一.背景互联网上,一篇文章被抄袭来抄袭去,转载来转载去。被抄袭的文章一般不改,或者少量改动就发表了,所以判重并不是等于的关系,而是相似判断,这个判别的算法就是simhash。二.simhash计算给定一篇文章内容,利用simhash算法可以计算出一个哈希值(64位整形)。判别两篇文章是相似的方法,就是两个simhash值的距离<=3,这里距离计算采用汉明距离,也就是2个s...原创 2018-12-22 14:22:03 · 2540 阅读 · 1 评论 -
BitMap、BloomFilter详解以及应用场景
一、Bit-Map算法 先看看这样的一个场景:给一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中?问题思考: 40亿个int占(40亿*4)/1024/1024/1024 大概为14.9G左右,很明显内存只有2G,放不下,因此不可能将这40亿数据放到内存中计算。要快速...转载 2018-12-23 23:51:25 · 1443 阅读 · 1 评论