- 博客(6)
- 资源 (15)
- 收藏
- 关注
原创 Nutch/Lucene的存取机制与结构分析(收藏)
需注明出处,未经作者同意,不得用于任何形式的商业活动主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题主要内容一、Lucene的索引机制与索引文件结构二、Nutch的爬虫分析与文件结构分析三、Nutch segments的拆分索引实现方案一、Lucene的索引机制与索引文件结构1、Lucene的索引机制2、Lucene文件格式_0.f0,_
2010-04-20 22:44:00 1922 9
转载 Nutch Crawler工作流程及文件格式详细分析
Nutch 的Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、总体介绍:1、先注入种子urls到crawldb2、循环: * generate 从crawldb中生成一个url的子集用于抓取 * fetch 抓取上一小的url生成一个
2010-04-20 22:09:00 1319
原创 Nutch中添加特定域(field)搜索方法
1. WEB-INF/classes/custom-fields.xml里添加: title yes yes yes 2.0 false content yes no yes 1.0 false 要和自己建索引时候的设置一致 2. plugin/query-custom/plugin.xml里修改:
2010-04-16 13:57:00 1556
原创 Nutch cached乱码问题解决办法
在cached.jsp页面中,原来用于取得字符集的代码是通过取得ParseData的ContentMeta 来得: Metadata metaData = bean.getParseData(details).getContentMeta(); String content = null; String contentType = (String) metaData.get(Metadat
2010-04-15 16:00:00 1080
转载 ant教程详解--javac,java,jar,war,delete,copy,mkdir,move等指令(收藏)
Ant是一个Apache基金会下的跨平台的构件工具,它可以实现项目的自动构建和部署等功能。在本文中,主要让读者熟悉怎样将Ant应用到Java项目中,让它简化构建和部署操作。一. 安装与配置下载地址:http://ant.apache.org/,在本文中下载的是1.7.0版本。解压到某个目录(例如E:"apache-ant-1.7.0),即可使用。添加系统环境
2010-04-06 20:58:00 953
转载 详解Nutch插件系统
nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构,下面就来解析Nutch的插件系统是怎么回事。 关于nutch,在这里了解:http://lucene.apache.org/nutch/,目前最新版本是1.0: 23 March 2009 - Apache Nutch 1.0 Released Nutch is open sour
2010-04-01 12:50:00 1274
用于中文分词的中文词库包
2010-01-04
Java聊天室程序源码
2009-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人