爬虫点滴
http://www.beijing-open-party.org/topic/49
总结这“不务正业”的半年。
爬虫是很多搜索引擎的一部分,它的名声并不好。比起搜索引擎的分词技术、索引技术来说它很基础,似乎没有那么多花样,被认为是没啥意思的脏活累活。我在这里就分享一下爬虫这个不起眼的系统里面涉及到方方面面的技术,由于内容比较细碎,话题里面只能蜻蜓点水。
如果用几个关键词形容它:爬虫、架构、分布式系统、NOSQL、实时/离线系统对比、Google Caffeine、Percolator
爬虫点滴的评论