自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (15)
  • 收藏
  • 关注

原创 Nutch/Lucene的存取机制与结构分析(收藏)

需注明出处,未经作者同意,不得用于任何形式的商业活动主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题主要内容一、Lucene的索引机制与索引文件结构二、Nutch的爬虫分析与文件结构分析三、Nutch segments的拆分索引实现方案一、Lucene的索引机制与索引文件结构1、Lucene的索引机制2、Lucene文件格式_0.f0,_

2010-04-20 22:44:00 1922 9

转载 Nutch Crawler工作流程及文件格式详细分析

Nutch 的Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、总体介绍:1、先注入种子urls到crawldb2、循环:    * generate 从crawldb中生成一个url的子集用于抓取    * fetch 抓取上一小的url生成一个

2010-04-20 22:09:00 1319

原创 Nutch中添加特定域(field)搜索方法

1. WEB-INF/classes/custom-fields.xml里添加:   title yes yes yes 2.0 false content yes no yes 1.0 false 要和自己建索引时候的设置一致  2. plugin/query-custom/plugin.xml里修改:

2010-04-16 13:57:00 1556

原创 Nutch cached乱码问题解决办法

在cached.jsp页面中,原来用于取得字符集的代码是通过取得ParseData的ContentMeta 来得: Metadata metaData = bean.getParseData(details).getContentMeta(); String content = null; String contentType = (String) metaData.get(Metadat

2010-04-15 16:00:00 1080

转载 ant教程详解--javac,java,jar,war,delete,copy,mkdir,move等指令(收藏)

Ant是一个Apache基金会下的跨平台的构件工具,它可以实现项目的自动构建和部署等功能。在本文中,主要让读者熟悉怎样将Ant应用到Java项目中,让它简化构建和部署操作。一.             安装与配置下载地址:http://ant.apache.org/,在本文中下载的是1.7.0版本。解压到某个目录(例如E:"apache-ant-1.7.0),即可使用。添加系统环境

2010-04-06 20:58:00 953

转载 详解Nutch插件系统

   nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构,下面就来解析Nutch的插件系统是怎么回事。    关于nutch,在这里了解:http://lucene.apache.org/nutch/,目前最新版本是1.0:    23 March 2009 - Apache Nutch 1.0 Released    Nutch is open sour

2010-04-01 12:50:00 1274

ulipad4源码版下载 python最好用的IDE

ulipad源码版 ulipad4源码版下载 python最好用的IDE,支持Django

2010-03-15

setuptools-0.6c11.win32-py2.6

setuptools-0.6c11.win32-py2.6

2010-03-15

comtypes-0.6.2.win32

wxpython2.8缺少这个模块,不然无法安装源码版的ulipad

2010-03-15

用于中文分词的中文词库包

15W以上中文词库,可用于 信息检索 搜索引擎 分词 15W以上中文词库,可用于 信息检索 搜索引擎 分词 15W以上中文词库,可用于 信息检索 搜索引擎 分词

2010-01-04

Python2.6官方发布版

Python2.6官方发布版 Python2.6官方发布版 Python2.6官方发布版 Python2.6官方发布版

2010-01-04

asm-2.2.2.jar包

hibernate不可缺少的jar包. JAR

2009-08-01

Lucene-2.2.0 源代码.zip

Lucene-2.2.0 源代码 学习学习

2009-05-10

jsp网上购物系统源代码

jsp网上购物系统源代码。。。。。。。。。。 功能齐全

2009-04-19

Java聊天室程序源码

Java聊天室程序源码 本文讨论了如何利用java技术开发聊天室系统,基本满足了结构化、界面友好、速度快、安全性以及稳定性等特点。 系统着重研究并实现了网络应用的部分。根据实现的情况看,具有较友好的聊天界面生成效果,以及流畅的网络通信效果。生成的聊天室可以达到基本的聊天要求,具有较高的研究价值。 系统具有目前聊天室的基本功能:包括支持多种头像,字色,语气选择,支持emote,支持私聊,支持在线聊友查找,支持分屏显示,支持用户定制自己的私人头像,支持脏话过滤,支持嘉宾聊天。屏蔽掉自己讨厌的人物,可以给所有聊友发公共信息。具有速度快,高稳定性,占用系统资源少,用户界面友好等特点。

2009-04-12

工作流设计器web插件(applet)

工作流设计器web插件(applet).rar

2009-02-25

《eclipse基础教程中文版》

《Eclipse基础教程中文版》 pdf文件

2009-02-23

Java+Servlet+API说明文档

Java+Servlet+API说明文档

2009-02-23

java编写的企业OA管理系统(源代码和数据库文件)

java编写的企业OA管理系统(源代码和数据库文件)

2009-02-23

jgraphmanual用户手册

jgraphmanual用户手册,英文的

2009-02-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除