网页搜索
wallace0611
从最简单的博客写起
展开
-
MapReduce在应用中,感受到的缺点
<br /> MapReduce正在风靡世界,比如google的bigtable,yahoo的hadop/hbase,其核心之一就是MapReduce。简单的说MapReduce的核心思想:1、数据在哪,运算在哪;2、多机器协同运算。<br /> 可是MapReduce就没有缺点了吗,我总结几条:<br /> 1、数据必须先存储,才能运算。<br /> MapReduce在搜索的应用中,先将爬虫爬来的网页数据放在一个大存储上(一个分布式存储),然后间断性的对这些数据进行批量处理(Ma原创 2010-09-15 11:08:00 · 4260 阅读 · 0 评论 -
多串匹配-AC自动机
<br />AC自动机即 Aho-Corasick automation,该算法在1975年产生于贝尔实验室。AC自动机是用来处理多串匹配问题的,即给你很多串,再给你一篇文章,让你在文章中找这些串是否出现过,在哪出现。AC自动机思想简单来讲就是在 Trie 上进行 KMP 匹配,所以先要知道 Trie数据结构 和 KMP算法。 AC自动机先将所有模式串构建成单词树,如有模式串 { she, he, say, shr, her, ayd },我们先构建成如下单词树:假设我们现在要对串 yshersay转载 2011-02-25 15:57:00 · 766 阅读 · 1 评论