- 博客(3)
- 资源 (11)
- 收藏
- 关注
原创 Nutch的工作流程
Nutch的工作流程: Crawdb、linkdb 是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录,是indexes目...
2010-10-02 01:03:23 154
原创 lucene下载与安装
<br />下载<br />下载链接:http://apache.mirror.phpchina.com/lucene/java/<br />以选择lucene-2.0.0.zip下载为例。<br /><br />安装<br />1、在本地磁盘解压缩lucene-2.0.0.zip文件;<br />2、将lucene-demos-2.0.0.jar和lucene-core-2.0.0.jar拷贝到JDK目录的lib目录下,例如:<br />D:/Program Files/Java/jdk1.5.0_05/
2010-10-01 22:38:00 7803 1
原创 Lucene下载
Lucene的下载 lucene在jakarta项目中的发布主页:::URL::http://jakarta.apache.org/lucene/docs/index.html。以下主要针对windows用户,其它用户请在上面的地址中查找相关下载。 lucene的.jar包的下载(包括.jar和一个范例demo):::URL::http://ap...
2010-10-01 22:33:56 196
WindowsMobile服务器端程序开发
2009-08-01
mysql详细参考资料
2009-07-29
深入浅出MFC(华中理工大学出版)
2009-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人