自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(5)
  • 资源 (6)
  • 收藏
  • 关注

转载 lucene 集中analyser的比较

中文分词可以查看:http://www.open-open.com/74.htm1、StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,

2012-03-11 20:25:44 429

转载 lucene 原理

Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这

2012-01-25 16:42:09 192

转载 lucene 2.x 预处理、建立索引、查询 实例+源码

lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。本人从头开始学习lucene,现在用的是《lucene in action中文版》,结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开始学习的新手参考!入门实例: 1.预处理:先把网上下载的一个《三国演义》电子书“三国

2012-01-25 15:58:17 282

转载 sed命令详解

上个星期老师讲了sed的用法,但是这个星期很快就把指令忘得七七八八了,还是上网找一篇详细的sed命令详解收藏一下,方便以后学习查阅。1.简介sed是源于行编辑器ed的非交互式的流(stream-oriented)编辑器。sed之所以称为“流”编辑器,是因为象大多数UNIX程序一样,输入流过它,然后被导向标准输出。sed编辑器逐行处理文件(或输入),把当前处理的行存储在称为“模式

2011-10-20 09:04:18 203

转载 Log4j的日志级别

公司使用Apache作为Web应用服务器,日志采用log4j组件来做。日志是应用软件中不可缺少的部分,Apache的开源项目Log4j是一个功能强大的日志组件,提供方便的日志记录。Log4j是Apache基金会的一个项 目,Log4j是一个基于Java的日志组件,Log4j是Ja

2011-10-16 15:27:18 306

某超市八月份的购物篮数据集

整理了我一个星期,终于搞出来了,某超市八月份的销售购物篮数据集,其中第一列是小票号+柜员机号+收银员号,其他的是一些物品分类的项目,可以用于clementine的关联分析。但是因为分类比较大,所以无法挖掘出排斥商品的关联规则。

2011-12-16

推荐]PHP5中文手册.chm

php中文手册,程序员的好帮手,必备程序员字典之一

2011-12-12

putty小工具

用来登录linux机的小软件

2011-12-12

文本朗读器(vs平台下基于tts的文本朗读器).

vs平台下开发的一个基于tts的文本发音小软件,做的有些简单,里面包含了windows用于发音的dll文件

2011-12-12

网页信息抽取算法roadrunner的java实现

网页信息抽取算法roadrunner的java实现代码,主处理程序是shell类已经集成了各种指令参数

2011-10-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除