- 博客(9)
- 资源 (9)
- 收藏
- 关注
原创 敏感词过滤算法
字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式 <br />字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传II字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之理论如此 <br />使用DFA实现文字过滤<br />Dfa和文字过滤 <br />文字过滤是一
2010-09-17 10:14:00 28902 2
转载 转 脏字/ 敏感词汇搜索算法
字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6 字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11 字符串多模式精确匹
2010-09-17 09:16:00 3910
原创 katta文档
<br />katta文档<br />http://katta.sourceforge.net/documentation/how-katta-works<br /> <br /> <br />Lucene另一种分布式搜索是使用Solr(本人 不太熟悉Solr)。所有的更新是在Solr的主服务器,通过cron自动分发到搜索服务器。搜索通过只定shards的 host:port/base_url分发到各个搜索服务器。url例子:http://localhost:8983/solr /selec
2010-09-14 17:22:00 2504 2
原创 lucene 处理大规模数据的一些解决方法 katta--简介
lucene 索引文件有大概10G,搜索时候比较慢,最好拆分存放索引,多位置同时搜索 /** * 得到MultiSearcher多目录查询实例 * * @param String[] dirs 要查询的索引目录。 * * @return MultiSearcher * @throws IOException*/private MultiSearcher getMultiSearcher(String[] dirs) throws IO
2010-09-14 15:17:00 6875
转载 关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章
<br /> larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。<br /><br /> 利用larbin,我们可以轻
2010-09-14 15:02:00 1444
原创 Bloom-Filter算法
<br />一、 Bloom-Filter算法简介。<br />Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom-Filter存在着误判。<br /><br />二、 Bloom-Filter的基本思想。<br />Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。<br />计算某元素x是否在一个集合中,首先能想到的方法就
2010-09-14 14:34:00 2485 1
原创 Mahout
<br />http://lucene.apache.org/mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/<br /><br />Apache Mahout 简介<br />http://www.ibm.com/developerworks/cn/java/j-mahout/<br /><br />Mahout 0.3: 机器学习开源项目http://www.infoq.com/
2010-09-14 14:27:00 1061
原创 三种压力测试工具 http_load 和 apache ab 、 siege 压力测试
到http://www.acme.com/software/http_load/ 下载http_load ,安装也很简单直接make;make instlall 就行。http_load的标准的两个例子是:http_load -parallel 5 -fetches 1000 urls.txt http_load -rate 2 -seconds 300 urls.txt 例子只是个参考,参数其实可以自由组合,参数之间的选择并没有什么限制。比如你写成http_load -parallel 5 -
2010-09-09 15:30:00 36894 3
原创 Tomcat启动分析
<br /> Tomcat笔记(1)<br /> Tomcat启动分析heavyz, 2003-03-221 - Tomcat Server的组成部分<br />1.1 - Server<br />A Server element represents the entire Catalina servlet container. (Singleton)<br />1.2 - Service<br />A Service element represen
2010-09-04 16:33:00 945
Packtpub.Solr.1.4.Enterprise.Search.Server.Aug.2009.pdf
2010-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人