自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (9)
  • 收藏
  • 关注

原创 敏感词过滤算法

字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式  <br />字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传II字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之理论如此  <br />使用DFA实现文字过滤<br />Dfa和文字过滤 <br />文字过滤是一

2010-09-17 10:14:00 28900 2

转载 转 脏字/ 敏感词汇搜索算法

字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15  字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6  字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11  字符串多模式精确匹

2010-09-17 09:16:00 3910

原创 katta文档

<br />katta文档<br />http://katta.sourceforge.net/documentation/how-katta-works<br /> <br /> <br />Lucene另一种分布式搜索是使用Solr(本人 不太熟悉Solr)。所有的更新是在Solr的主服务器,通过cron自动分发到搜索服务器。搜索通过只定shards的 host:port/base_url分发到各个搜索服务器。url例子:http://localhost:8983/solr /selec

2010-09-14 17:22:00 2504 2

原创 lucene 处理大规模数据的一些解决方法 katta--简介

lucene 索引文件有大概10G,搜索时候比较慢,最好拆分存放索引,多位置同时搜索 /** * 得到MultiSearcher多目录查询实例 * * @param String[] dirs 要查询的索引目录。 * * @return MultiSearcher * @throws IOException*/private MultiSearcher getMultiSearcher(String[] dirs) throws IO

2010-09-14 15:17:00 6875

转载 关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章

<br />     larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。<br /><br />    利用larbin,我们可以轻

2010-09-14 15:02:00 1443

原创 Bloom-Filter算法

<br />一、 Bloom-Filter算法简介。<br />Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom-Filter存在着误判。<br /><br />二、 Bloom-Filter的基本思想。<br />Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。<br />计算某元素x是否在一个集合中,首先能想到的方法就

2010-09-14 14:34:00 2484 1

原创 Mahout

<br />http://lucene.apache.org/mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/<br /><br />Apache Mahout 简介<br />http://www.ibm.com/developerworks/cn/java/j-mahout/<br /><br />Mahout 0.3: 机器学习开源项目http://www.infoq.com/

2010-09-14 14:27:00 1061

原创 三种压力测试工具 http_load 和 apache ab 、 siege 压力测试

到http://www.acme.com/software/http_load/ 下载http_load ,安装也很简单直接make;make instlall 就行。http_load的标准的两个例子是:http_load -parallel 5 -fetches 1000 urls.txt  http_load -rate 2 -seconds 300 urls.txt  例子只是个参考,参数其实可以自由组合,参数之间的选择并没有什么限制。比如你写成http_load -parallel 5 -

2010-09-09 15:30:00 36891 3

原创 Tomcat启动分析

<br /> Tomcat笔记(1)<br /> Tomcat启动分析heavyz, 2003-03-221 - Tomcat Server的组成部分<br />1.1 - Server<br />A Server element represents the entire Catalina servlet container. (Singleton)<br />1.2 - Service<br />A Service element represen

2010-09-04 16:33:00 943

Packtpub.Solr.1.4.Enterprise.Search.Server.Aug.2009.pdf

Packtpub.Solr.1.4.Enterprise.Search.Server.Aug.2009 最权威的solr书籍 英文版pdf

2010-10-09

企业级solr入门

企业级solr入门

2010-10-09

myhout in action

myhout in action.pdf

2010-09-17

经典模式分类 ppt

author duda 经典教材 pattern classification ppt

2009-11-14

Pattern_classification 模式分类

经典的模式识别教程 Pattern_classification 模式分类 pdf

2009-06-08

研究生教材清华大学矩阵论习题解答

清华大学矩阵论习题解答研究生教材清华大学矩阵论习题解答研究生教材清华大学矩阵论习题解答

2009-02-25

高质量c编程指南(pdf)

高质量c编程指南(pdf)

2007-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除