算法
__learner
所有的努力都值得期许,每一份梦想都应该灌溉!
展开
-
海量数据相似度计算之simhash和海明距离
来历 google的论文“detecting near-duplicates for web crawling”--------simhash。 Google采用这种算法来解决万亿级别的网页的去重任务。 基本思想 simhash算法的主要思想是降维,将高维的特征向量映射成一个低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者转载 2016-02-29 10:18:37 · 1002 阅读 · 0 评论 -
cron表达式详解
Cron表达式是一个字符串,字符串以5或6个空格隔开,分为6或7个域,每一个域代表一个含义,Cron有如下两种语法格式: Seconds Minutes Hours DayofMonth Month DayofWeek Year或 Seconds Minutes Hours DayofMonth Month DayofWeek每一个域可出现的字符如下: Seconds:可出转载 2016-05-10 21:14:19 · 457 阅读 · 0 评论