- 博客(1)
- 资源 (37)
- 收藏
- 关注
转载 开发工程师的人生之路
当你选择计算机或者电子、自控等专业进入大学时,你本来还是有机会从事其它行业的,可你毕业时执迷不悟,仍然选择了开发做为你的职业,真是自做孽不可活。不过,欢迎你和我一样加入这个被其它人认为是风光无限的“白领”吧。 如果你不是特别的与人世隔绝,我想你一定看过金老先生的名著《笑傲江湖》吧,里面有一门十分奇特的武功叫做"辟邪剑法",你看这个小说第一次看到这种功夫的练法时,我想你当时一定笑歪了牙“呵呵,真好玩
2007-11-08 21:53:00 869 2
Lucene+Nutch搜索引擎 光盘源码
1.光盘中所附代码的运行环境
操作系统Microsoft Windows 2000/XP及以上
服务器Tomcat 5.5版本
数据库SQL Server 2000以上版本
Java 支持环境JDK 1.6.0版本
2.本书所附光盘范例
代码安装说明:在Eclipse环境下直接选取“import->Existing Project”,导入希望调试的工程。为了测试方便,每个工程保持独立,能够独立编译和运行,部分工程需要引入Lucene相应的Jar包支持。
光盘内文件列表说明:
Eclipse工程/LuceneChapter1
说明:本书第一章Eclipse工程文件,测试编程环境的源代码。
文件列表:
HelloEclipse.java // Eclipse测试代码
Eclipse工程/LuceneChapter2
说明:本书第二章Eclipse工程文件,搜索引擎原理简单实现的源代码。
文件列表:
infoItem.java // infoItem结构
WebCrawler.java // 自己编写的WebCrawler示例代码
WebHttpClient.java // 自己编写的WebHttpClient示例代码
WebParamCrawler.java // 自己编写的WebParamCrawler示例代码
WebParser.java // 自己编写的网页解析WebParser代码
WebParserFilter.java // 网页解析过滤WebParserFilter代码
WordIndex.java // 索引测试WordIndex代码
Eclipse工程/LuceneChapter3
说明:本书第三章Eclipse工程文件,搜索引擎Lucene Demo实现的源代码。
文件列表:
CreateIndex.java // 使用Lucene创建索引Demo代码
DemoTest.java // Lucene测试代码
LuceneSearch.java // Lucene检索测试代码
Eclipse工程/LuceneChapter4
说明:本书第四章测试文件,测试网站examweb页面以及下载列表;
文件列表:
multiurls.txt // Nutch下载的Url列表
index.htm // 测试网站网页
more.htm // 测试网站网页
music.htm // 测试网站网页
stillmore.htm // 测试网站网页
zqzs.htm // 测试网站网页
Eclipse工程/LuceneChapter5
说明:本书第五章Eclipse工程文件,搜索引擎Lucene 索引实现和测试的源代码。
文件列表:
LuceneIndexDatabase.java // 使用Lucene创建数据库数据索引
LuceneIndexDelete.java // 索引内容删除代码
LuceneIndexDeleteId.java // 按照文档ID删除索引文件代码
LuceneIndexDeleteOptimize.java // 删除后文档编号压缩实例代码
LuceneIndexInteger.java // 数字类型索引代码
LuceneIndexList.java // 索引实例
LuceneIndexLocalDisk.java // 本地磁盘纯文本文件索引
LuceneIndexManager.java // 索引管理实例
LuceneIndexNumber.java // 数字类型数据索引
LuceneIndexParam.java // 索引参数测试
LuceneIndexText.java // 索引纯文本文档
LuceneIndexTypes.java // 索引类型实例
LuceneIndexUnsearch.java // 索引实例实例代码
LuceneIndexUpdate.java // 索引更新实例代码
Eclipse工程/LuceneChapter6
说明:本书第六章Eclipse工程文件,搜索引擎Lucene检索实现的源代码。
文件列表:
LuceneRAMSearchText.java // 使用内存索引的代码
LuceneSearchQueryType.java // 各种检索类型演示代码
LuceneSearchSpanQuery.java // SpanQuery检索演示代码
LuceneSearchText.java // 对文本索引检索实例代码
Eclipse工程/LuceneChapter7
说明:本书第七章Eclipse工程文件,搜索引擎查询器实现的源代码。
文件列表:
BoostChangeQuery.java // Boost参数的演示实例
BoostFieldQuery.java // 修改文档域Boost参数的检索实例
BoostQuery.java // 修改文档Boost参数的检索实例
LuceneSortExplain.java // 检索评分参数输出测试代码
SortByField.java // 按域排序代码
SortByFieldInverse.java // 检索结果逆向排序代码
SortByMultiFields.java // 多域索引代码
SortDocID.java // 按照文档编号索引
SortExtendSearch.java // 自定义排序扩展检索代码
SortExtendTest.java // 排序扩展测试代码
SortRelavence.java // 排序调整代码
Eclipse工程/LuceneChapter8
说明:本书第八章Eclipse工程文件,搜索引擎分析器实现的源代码。
文件列表:
ChineseAnalyzer.java // ChineseAnalyzer代码
ChineseFilter.java // ChineseAnalyzer依赖的过滤器
ChineseTokenizer.java // ChineseAnalyzer依赖的分词器
CJKAnalyzer.java // 使用CJKAnalyzer进行中文分析
CJKTokenizer.java // CJKAnalyzer依赖的内部类
ICTCLASAnalyzer.java // 使用ICTCLASAnalyzer进行中文分析
LuceneChineseAnalyzerText.java //使用ChineseAnalyzer进行中文分析代码
LuceneCJKAnalyzerText.java //使用CJKAnalyzer进行中文分析代码
LuceneDefaultAnalyzerText.java // 默认分析器索引代码
LuceneIKAnalyzerText.java // 使用IKAnalyzer进行中文分析代码
LuceneJEAnalyzerText.java // 使用JEAnalyzer进行中文分析代码
LuceneKeywordAnalyzerText.java // 使用KeywordAnalyzer进行分析
LuceneMIKAnalyzerText.java // 使用MIKAnalyzer进行中文分析代码
LuceneSearchAnalyzer.java // SearchAnalyzer演示代码
LuceneSimpleAnalyzerText.java // SimpleAnalyzer分析演示代码
LuceneStandardAnalyzerText.java // StandardAnalyzer分析演示代码
LuceneStopAnalyzerText.java // StopAnalyzer分析演示代码
LuceneWhitespaceAnalyzerText.java // WhitespaceAnalyzer分析演示代码
Eclipse工程/LuceneChapter9
说明:本书第九章Eclipse工程文件,搜索引擎分析器实现和测试的源代码。
文件列表:
ChineseAnalyzer.java // 中文分词演示代码代码
ChineseFilter.java // 一个内部依赖文件中文过滤器代码
ChineseTokenizer.java // 一个内部依赖文件中文切分器代码
DataBaseTool.java // 数据库基础工具代码代码
HtmlParserExtraction.java // HtmlParser提取HTML文件内容代码
HtmlParserGetBaiduUrls.java // HtmlParser获取检索结果页链接代码
HtmlParserGetLexerUrls.java // HtmlParser中使用Lexer获取链接代码
HtmlParserGetPageUrls.java // 获取网页所有链接代码
iTextPDFExtractor.java // 使用iText解析PDF文档代码
PDFBoxHello.java // PDFBox测试代码
PDFBoxLuceneIndex.java // PDFBox创建PDF文件的Lucene索引
PDFBoxPathIndex.java // PDFBox创建指定目录PDF文档索引
POIOfficeExtractor.java // POI处理Excel和Word文档代码
ResultBean.java // 结果集管理类
XercesXMLExtractor.java // 使用Xerces的XML解析
XMLExtractor.java // XML文件内容解析
Eclipse工程/LuceneChapter10
说明:本书第十章Eclipse工程文件,搜索引擎的源代码。
文件列表:
MultiSocketClient.java // 多客户端程序
SockClient.java // Socket通信客户端
SockServer.java // Socket通信服务器
SockServer2.java // 带检索功能的Socket通信服务器
DistributedSearch.java // Nutch分布式检索代码
DistributedSearchTest.java // Nutch分布式检索测试代码
Eclipse工程/LuceneChapter11
说明:本书第十一章Eclipse工程文件,Nutch专题搜索引擎实例的源代码。
文件列表:
createkeywordstable.sql // 关键词配置数据库
DataBaseTool.java // 数据库运行参数访问工具
RadarSpecialSearchEngine.java // 信息监控搜索
index.jsp // Web首页
resultprocess.jsp // 检索结果处理Web页面
search.jsp // 检索调用结果Web页面
Eclipse工程/LuceneChapter12
说明:本书第十二章Eclipse工程文件,Lucene实现企业搜索实例的源代码。
文件列表:
BNVConfig.xml // 系统运行参数配置文件
ConfigClassify.java // 配置文件解析参数组管理
ConfigField.java // 配置文件域访问类
ConfigManager.java // 配置文件管理,组织参数文件
create_luceneinfo.sql // 实例数据库创建脚本
databaseTool.java // 复杂的数据库访问工具
datatool.java // 数据库访问工具
EBNVIndex.java // 负责索引的总体控制和调用
FileDocument.java // 文档类
FileManager.java // 负责文件和内容管理
LuceneIndexLocalDisk.java // 负责本地文档解析加载和索引
SearchResultBean.java // 负责组织检索结果
SearchTool.java // Lucene内容检索类
XMLExtractor.java // XML文档解析类
results.jsp // 搜索web页面
2008-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人