2008年11月_caoxu1987728

12月 11月 10月 09月 08月 07月 05月 04月

原创 Lucene源代码之DocumentWriter

首先我们先概念性地了解一下索引如何写入的。Lucene的索引文件是按照Document、Field、Term三个层面存了document，field，term的信息。一个文件系统必定存在着一组互逆的过程：写入，读取。检索系统也是一种文件系统，也存在互逆过程，有相关的类与之对应：1）写入→*Writer2）读取→*Reader标引过程我们着重描述*Writer类的功能，Lucene有

2008-11-30 14:51:00 2261

原创 Lucene源代码之SegmentInfo

首先还是来看看，SegmentInfo到底是干什么的吧：Segmentinfo是保存在SegmentInfos容器里面，它主要是记录每个segment的情况。还要引用前面的Segments_N文件格式图：看到里面两个大的虚线框了吗，每一个虚线框就表示一个segment，里面的信息就是SegmentInfo需要处理（保存、写入）的数据，也就是它的属性，具体有SegName、SegSiz

2008-11-29 11:34:00 1783 1

原创 Lucene源代码之SegmentInfos容器

首先我们先了解一下什么是SegmentInfos；该类主要是对SegmentInfo进行管理的。在每次执行打开索引目录、打开索引文件、写入文件等等，都需要对SegmentInfos进行维护。因为SegmentInfos记录了对索引文件进行操作(如：建立索引、删除索引)而生成的一些索引文件格式、版本号的信息，所以每当索引文件有操作需求，都要从SegmentInfos中获取当前的一些详细记录，

2008-11-27 21:19:00 1868 2

原创 Lucene源代码之FieldInfos容器

FieldInfos是一个容器类，含有如下属性：static final byte IS_INDEXED = 0x1; static final byte STORE_TERMVECTOR = 0x2; static final byte STORE_POSITIONS_WITH_TERMVECTOR = 0x4; static final byte STORE_OFFSET_WITH

2008-11-27 14:02:00 1056

原创 Lucene源代码之信息索引

索引是什么？索引是一种数据存储和组织结构。逆常人之思维，lucene索引采用倒排文件索引构造索引系统。具体实现原理举例说明：假设有3篇文章，file1,file2,file3，文件内容如下： file1 (单词1，单词2，单词3，单词4....)file2 (单词a，单词b，单词c，单词d....)file3 (单词1，单词a，单词3，单词d....)建立的倒排索引就是这个

2008-11-26 20:18:00 1877

原创 Lucene源代码之构造自己的分词器

首先郑重声明：本分词器不是我自己写的，但对于中文分词很好。分词名称：TjuChineseAnalyzer.源代码如下：package org.apache.lucene.analysis.tjuchinese;import java.io.IOException;import java.io.Reader;import java.io.StringReader;

2008-11-15 18:20:00 1646

原创 Lucene源代码analysis之测试

以WhitespaceAnalyzer为例：测试的主函数为：package org.apache.lucene.analysis.test;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import o

2008-11-14 16:42:00 1016

原创 Lucene源代码之Analysis

Analysis包分析 Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念.首先理一下Analysis包下各个类之间的关系：上面的基本上已经涵盖了所有的核心类了，但仍然缺少了一个独立ana

2008-11-13 22:06:00 2208

俄罗斯方块

本程序算法要求比较高，但比较全面，适合看过其他俄罗斯方块的人看

2008-04-05

1．光盘中所附代码的运行环境操作系统Microsoft Windows 2000/XP及以上服务器Tomcat 5.5版本数据库SQL Server 2000以上版本 Java 支持环境JDK 1.6.0版本 2．本书所附光盘范例代码安装说明：在Eclipse环境下直接选取“import->Existing Project”，导入希望调试的工程。为了测试方便，每个工程保持独立，能够独立编译和运行，部分工程需要引入Lucene相应的Jar包支持。光盘内文件列表说明： Eclipse工程/LuceneChapter1 说明：本书第一章Eclipse工程文件，测试编程环境的源代码。文件列表： HelloEclipse.java // Eclipse测试代码 Eclipse工程/LuceneChapter2 说明：本书第二章Eclipse工程文件，搜索引擎原理简单实现的源代码。文件列表： infoItem.java // infoItem结构 WebCrawler.java // 自己编写的WebCrawler示例代码 WebHttpClient.java // 自己编写的WebHttpClient示例代码 WebParamCrawler.java // 自己编写的WebParamCrawler示例代码 WebParser.java // 自己编写的网页解析WebParser代码 WebParserFilter.java // 网页解析过滤WebParserFilter代码 WordIndex.java // 索引测试WordIndex代码 Eclipse工程/LuceneChapter3 说明：本书第三章Eclipse工程文件，搜索引擎Lucene Demo实现的源代码。文件列表： CreateIndex.java // 使用Lucene创建索引Demo代码 DemoTest.java // Lucene测试代码 LuceneSearch.java // Lucene检索测试代码 Eclipse工程/LuceneChapter4 说明：本书第四章测试文件，测试网站examweb页面以及下载列表；文件列表： multiurls.txt // Nutch下载的Url列表 index.htm // 测试网站网页 more.htm // 测试网站网页 music.htm // 测试网站网页 stillmore.htm // 测试网站网页 zqzs.htm // 测试网站网页 Eclipse工程/LuceneChapter5 说明：本书第五章Eclipse工程文件，搜索引擎Lucene 索引实现和测试的源代码。文件列表： LuceneIndexDatabase.java // 使用Lucene创建数据库数据索引 LuceneIndexDelete.java // 索引内容删除代码 LuceneIndexDeleteId.java // 按照文档ID删除索引文件代码 LuceneIndexDeleteOptimize.java // 删除后文档编号压缩实例代码 LuceneIndexInteger.java // 数字类型索引代码 LuceneIndexList.java // 索引实例 LuceneIndexLocalDisk.java // 本地磁盘纯文本文件索引 LuceneIndexManager.java // 索引管理实例 LuceneIndexNumber.java // 数字类型数据索引 LuceneIndexParam.java // 索引参数测试 LuceneIndexText.java // 索引纯文本文档 LuceneIndexTypes.java // 索引类型实例 LuceneIndexUnsearch.java // 索引实例实例代码 LuceneIndexUpdate.java // 索引更新实例代码 Eclipse工程/LuceneChapter6 说明：本书第六章Eclipse工程文件，搜索引擎Lucene检索实现的源代码。文件列表： LuceneRAMSearchText.java // 使用内存索引的代码 LuceneSearchQueryType.java // 各种检索类型演示代码 LuceneSearchSpanQuery.java // SpanQuery检索演示代码 LuceneSearchText.java // 对文本索引检索实例代码 Eclipse工程/LuceneChapter7 说明：本书第七章Eclipse工程文件，搜索引擎查询器实现的源代码。文件列表： BoostChangeQuery.java // Boost参数的演示实例 BoostFieldQuery.java // 修改文档域Boost参数的检索实例 BoostQuery.java // 修改文档Boost参数的检索实例 LuceneSortExplain.java // 检索评分参数输出测试代码 SortByField.java // 按域排序代码 SortByFieldInverse.java // 检索结果逆向排序代码 SortByMultiFields.java // 多域索引代码 SortDocID.java // 按照文档编号索引 SortExtendSearch.java // 自定义排序扩展检索代码 SortExtendTest.java // 排序扩展测试代码 SortRelavence.java // 排序调整代码 Eclipse工程/LuceneChapter8 说明：本书第八章Eclipse工程文件，搜索引擎分析器实现的源代码。文件列表： ChineseAnalyzer.java // ChineseAnalyzer代码 ChineseFilter.java // ChineseAnalyzer依赖的过滤器 ChineseTokenizer.java // ChineseAnalyzer依赖的分词器 CJKAnalyzer.java // 使用CJKAnalyzer进行中文分析 CJKTokenizer.java // CJKAnalyzer依赖的内部类 ICTCLASAnalyzer.java // 使用ICTCLASAnalyzer进行中文分析 LuceneChineseAnalyzerText.java //使用ChineseAnalyzer进行中文分析代码 LuceneCJKAnalyzerText.java //使用CJKAnalyzer进行中文分析代码 LuceneDefaultAnalyzerText.java // 默认分析器索引代码 LuceneIKAnalyzerText.java // 使用IKAnalyzer进行中文分析代码 LuceneJEAnalyzerText.java // 使用JEAnalyzer进行中文分析代码 LuceneKeywordAnalyzerText.java // 使用KeywordAnalyzer进行分析 LuceneMIKAnalyzerText.java // 使用MIKAnalyzer进行中文分析代码 LuceneSearchAnalyzer.java // SearchAnalyzer演示代码 LuceneSimpleAnalyzerText.java // SimpleAnalyzer分析演示代码 LuceneStandardAnalyzerText.java // StandardAnalyzer分析演示代码 LuceneStopAnalyzerText.java // StopAnalyzer分析演示代码 LuceneWhitespaceAnalyzerText.java // WhitespaceAnalyzer分析演示代码 Eclipse工程/LuceneChapter9 说明：本书第九章Eclipse工程文件，搜索引擎分析器实现和测试的源代码。文件列表： ChineseAnalyzer.java // 中文分词演示代码代码 ChineseFilter.java // 一个内部依赖文件中文过滤器代码 ChineseTokenizer.java // 一个内部依赖文件中文切分器代码 DataBaseTool.java // 数据库基础工具代码代码 HtmlParserExtraction.java // HtmlParser提取HTML文件内容代码 HtmlParserGetBaiduUrls.java // HtmlParser获取检索结果页链接代码 HtmlParserGetLexerUrls.java // HtmlParser中使用Lexer获取链接代码 HtmlParserGetPageUrls.java // 获取网页所有链接代码 iTextPDFExtractor.java // 使用iText解析PDF文档代码 PDFBoxHello.java // PDFBox测试代码 PDFBoxLuceneIndex.java // PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java // PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java // POI处理Excel和Ｗord文档代码 ResultBean.java // 结果集管理类 XercesXMLExtractor.java // 使用Xerces的XML解析 XMLExtractor.java // XML文件内容解析 Eclipse工程/LuceneChapter10 说明：本书第十章Eclipse工程文件，搜索引擎的源代码。文件列表： MultiSocketClient.java // 多客户端程序 SockClient.java // Socket通信客户端 SockServer.java // Socket通信服务器 SockServer2.java // 带检索功能的Socket通信服务器 DistributedSearch.java // Nutch分布式检索代码 DistributedSearchTest.java // Nutch分布式检索测试代码 Eclipse工程/LuceneChapter11 说明：本书第十一章Eclipse工程文件，Nutch专题搜索引擎实例的源代码。文件列表： createkeywordstable.sql // 关键词配置数据库 DataBaseTool.java // 数据库运行参数访问工具 RadarSpecialSearchEngine.java // 信息监控搜索 index.jsp // Web首页 resultprocess.jsp // 检索结果处理Web页面 search.jsp // 检索调用结果Web页面 Eclipse工程/LuceneChapter12 说明：本书第十二章Eclipse工程文件，Lucene实现企业搜索实例的源代码。文件列表： BNVConfig.xml // 系统运行参数配置文件 ConfigClassify.java // 配置文件解析参数组管理 ConfigField.java // 配置文件域访问类 ConfigManager.java // 配置文件管理，组织参数文件 create_luceneinfo.sql // 实例数据库创建脚本 databaseTool.java // 复杂的数据库访问工具 datatool.java // 数据库访问工具 EBNVIndex.java // 负责索引的总体控制和调用 FileDocument.java // 文档类 FileManager.java // 负责文件和内容管理 LuceneIndexLocalDisk.java // 负责本地文档解析加载和索引 SearchResultBean.java // 负责组织检索结果 SearchTool.java // Lucene内容检索类 XMLExtractor.java // XML文档解析类 results.jsp // 搜索web页面

2008-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

tm-extractors-0.4

googleapi.jar

jacob_1.11

校园选址问题

Lucene2.0+Heritrix(ch4源代码）

Lucene2.0+Heritrix(ch3源代码）

Lucene2.0+Heritrix(源代码）

系统垃圾清理

lucene-core-2.0.0.jar

je-analysis-1.4.0.jar

jsp+css+javascript

导入包Mysql

ftp服务下载器

Mysql加载纯驱动程序

注册模块（会员管理）

jsp大学使用教程

计算三角形面积

俄罗斯方块

俄罗斯方块

运动会分数统计

魔王语言解释

魔王语言解释

校园导游咨询

校园导游程序报告

数制转换（数据结构）

ICTCLAS java分词接口

Lucene+Nutch搜索引擎 光盘源码

开发自己的搜索引擎

java 编程思想doc

javascript全程指南

搜索引擎技术培训

搜索引擎简介

tomcatpluginv3

htmlparser1.6

lucene in action 源代码

xpdf-3.02pl2-win32.zip

空空如也

Lucene+Nutch搜索引擎光盘源码