数据重删
文章平均质量分 56
vonzhou
这个作者很懒,什么都没留下…
展开
-
文件相似性判断 -- SimHash
最近调研了一下simhash算法,它主要用在谷歌网页去重中,网上有很多原理性的介绍。既然可以用来判断文件的相似性,就想知道效果怎么样,simhash的精确度是否依赖于分词算法?是否和simhash的长度有关?在数据去重过程中,都是先对文件进行分块,而后得到关于这个文件的所有指纹(SHA-1 digest),那么如果把这些fingerprints视为这个文件的单词,作为simhash的输入,效果原创 2014-07-09 19:50:20 · 2293 阅读 · 0 评论 -
文件分块上传客户端实现
首先对文件按内容分块(有块大小的约束),然后对于每个chunk构造单独的一个UDP 数据报进行传输,在应用层的开始是自定义的包头,有块号,块长度,块指纹等元数据信息,这些信息便于接收端能够按序正确接收。/*--vonzhou ---this project is to upload file after chunking using rabin fingerprint, h原创 2014-06-16 20:33:36 · 2187 阅读 · 0 评论 -
文件相似性判断 -- 超级特征值(super feature)
基于内容的变长分块(CDC)技术,可以用来对文件进行变长分块,而后用来进行重复性检测,广泛用于去重系统中。后来又出现了对相似数据块进行delta压缩,进一步节省存储开销。所以就需要一种高效的相似性检测算法,在论文 WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression 提出的sup原创 2014-07-29 15:39:13 · 2777 阅读 · 0 评论