一
1 保存到数据库
2 保存到set( 占用空间大)
3 url经过md5等方法哈希后保存到set中 (scrapy采用了类似方法)
4 用bitmap方法,将访问过的url通过hash函数映射到某一位(易冲突)
5 bloomfilter方法进行改造,多重hash函数降低冲突()
二
bitmap
bloom filter http://baike.baidu.com/link?url=iyOTf2Z0Ya-fi1BR7YygxuYgWdGgpU6GJs_bsKU8iadWFJfWhEBt-qqNotEqcdRUrmg-cSdDTGvB-3HEJKsg_FQ0Ga8MTH61-bBtA9CQkMe
待续