自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 PHP json_encode() 函数介绍

在 php 中使用 json_encode() 内置函数(php > 5.2)可以使用得 php 中数据可以与其它语言很好的传递并且使用它。 这个函数的功能是将数值转换成json数据存储格式。 [code="php"]'希亚', 'Age'=>20 );$jsonencode = json_encod...

2012-03-28 09:48:26 143

转载 在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer

研究了一天终于搞定了在Lucene.net 里添加Analyzer 的方法。首先说明下,要添加中文分词必须继承Analyzer类。参考网址:http://blog.likeshow.net/article.asp?id=39仿照别人的一篇文章,写出了这个类。写完后发现,其实这样的东西没什么技术含量,不过对于理解Lucene确实帮助不少。下面我将代码贴出。首先是:ChineseAnaly

2008-05-24 20:07:00 699 1

转载 最简单的Lucene.Net-2.0-004-11Mar07索引+搜索

这几天看demo完成了一个简单的索引+搜索。网上大多数是dotLucene.net 的例子,而Lucene.Net 2.0 的很少,其实连 http://www.dotlucene.net/ 都关掉了,由于刚刚接触Lucene.net ,网上很多人说 Lucene.Net 从 2.0 开始就开始收费,其实,现在Lucene.net 又开始免费了。Lucene.net 现在成为apache 的开源项

2008-05-24 20:06:00 542

转载 Lucene.net中文分词探究(2)

三、            五中分词器代码设计探究       从下面分词器代码设计中的静态结构图可以清晰的看出其继承关系。无论是哪个分词器,其分词最终实现的算法都是在Next()方法,想深入了解,请看其相关源码。

2008-05-24 20:04:00 445

转载 Lucene.net中文分词探究

一、中文分词方式:中文分词几种常用的方式:A. 单字分词单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:我们是中国人,效果:我/们/是/中/国/人。B. 二分法二分法,就是按两个字进行切分。如:我们是中国人,效果:我们/们是/是中/中国/国人。C. 词库分词词库分词,就是按某种算法构造词然后去匹配已建好的词库集合,如果匹配到就切分出来成为词语。通常词库分词被

2008-05-24 20:03:00 533

转载 用Lucene.Net轻松创建最简单的搜索引擎

Lucene是当下最受欢迎的Java开源搜索引擎开发包. 其实从本质上说, 它就是一个索引和检索的软件系统.在Lucene中有一种特定的类型: Document, 它是一个Key-Value类型的集合. 我们只要将需要被索引的内容填入进去, Lucene就能够自动为其建立索引, 并且提供搜索. 因此, 通过Document, Lucene可以索引任何类型.前几天一个做职位信息搜索的朋友让我给他的搜

2008-05-24 20:02:00 389

转载 用lucene为数据库搜索建立 增量索引

用 lucene 建立索引不可能每次都重新开始建立,而是按照新增加的记录,一次次的递增建立索引的IndexWriter类,有三个参数 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);其中第三个参数是bool型的,指定它可以确定是增量索引,还是重建索引.对于从数据库中读取的记录,譬如要为文章

2008-05-24 20:00:00 487 1

转载 Lucene.net系列六 -- search 下

本文主要结合测试案例介绍了Lucene下的各种查询语句以及它们的简化方法.通过本文你将了解Lucene的基本查询语句,并通过学习相关的测试代码以加强了解.源代码下载具体的查询语句在了解了SQL后, 你是否想了解一下查询语法树?在这里简要介绍一些能被Lucene直接使用的查询语句.1.         TermQuery查询某个特定的词,在文章开始的例子中已有介绍.常用于

2008-05-24 19:59:00 298

转载 Lucene.net 系列五 --- search 上

在前面的系列我们一直在介绍有关索引建立的问题,现在是该利用这些索引来进行搜索的时候了,Lucene良好的架构使得我们只需要很少的几行代码就可以为我们的应用加上搜索的功能,首先让我们来认识一下搜索时最常用的几个类.查询特定的某个概念当我们搜索完成的时候会返回一个按Sorce排序的结果集Hits. 这里的Score就是接近度的意思,象Google那样每个页面都会有一个分值,搜索结果按分值排列.

2008-05-24 19:58:00 279

转载 Lucene.net 系列四 --- index 下

本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论.1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作.2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)3. 同一时间只允许一个对索引修改的操作.即同一时间只允许Ind

2008-05-24 19:57:00 345

转载 Lucene.net 系列三 --- index 中

本文将进一步讨论有关Lucene.net建立索引的问题:主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么?源代码下载本文将进一步讨论有关Lucene.net建立索引的问题:索引的权重根据文档的

2008-05-24 19:55:00 322

转载 Lucene.net 系列二 --- index (上)

本文继续系列一详细介绍了有关Lucene.net索引添加删除更新的详细内容.并给出了所有的TestCase供学习参考. Lucene建立Index的过程:1.        抽取文本.比如将PDF以及Word中的内容以纯文本的形式提取出来.Lucene所支持的类型主要为String,为了方便同时也支持Date 以及Reader.其实如果使用这两个类型lucene会自动进行类型转换.2.    

2008-05-24 19:54:00 357

转载 Lucene.net 系列一

本文介绍了什么是Lucene,Lucene能做什么.如何从一个文件夹下的所有txt文件中查找特定的词?本文将围绕该个实例介绍了lucene.net的索引的建立以及如何针对索引进行搜索.最后还将给出源代码供大家学习.What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能.Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学

2008-05-24 19:52:00 499

转载 Lucene中Field的类型

1.       2.0 以前的版本Keyword: Field 的值将被保存到索引文件,为Field的值建立索引,建立索引时不需要分词。 UnIndexed: Field 的值将被保存到索引文件,不为Field的值建立索引,因此不能通过该Field搜索文档。 UnStored: Field 的值不被保存到索引文件,将Field的值分词后建立索引 Text: Field 的值分词后建立索引。如果参

2008-05-24 19:51:00 415

转载 Lucene索引性能调整测试结果

2008-05-24 19:50:00 339

转载 提高Lucene索引性能

当索引的文件不多时,用 Lucene 默认的设置就能得到很好的性能。但是,如果索引大量文件,就得通过一些手段去提高 Lucene 索引性能。 1、 索引性能差的原因 1)        Lucene 索引过程     在索引文件的过程中, Lucene 不是直接将文件索引到磁盘上,而是首先缓存,然后在写到磁盘。如上图所示。2)        索引过程的瓶颈²        往磁盘上写索

2008-05-24 19:49:00 423

原创 lucene.net索引文件存储简析

在lucene.net中,典型的索引文件操作代码如下:IndexWriter writer = new IndexWriter("c:/index", new StandardAnalyzer(), true);try{   Document doc = new Document();   doc.Add(Field.Keyword("name", "name name");   doc.Add(

2008-05-24 19:47:00 709

转载 与搜索引擎相关的东东

一, 开源项目(1)Lucene地址: http://lucene.apache.org/Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便

2008-05-24 19:46:00 424

SWFUpload_v250_beta_3_samples

SWFUpload_v250_beta_3_samples 最新版例子

2011-03-22

SWFUpload_v250_beta_3_core

SWFUpload_v250_beta_3_core最新版的

2011-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除