- 博客(5)
- 收藏
- 关注
原创 Solr
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果; Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了...
2009-05-30 19:45:17 125
原创 nutch
Nutch 是一个开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引...
2009-05-30 19:44:17 81
原创 开源ETL工具kettle系列之常见问题
http://blog.csdn.net/cissyring/archive/2008/05/29/2494130.aspx 1. Join 我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该怎么样做. 这 是...
2009-05-20 16:38:26 324
原创 kettle
http://blog.csdn.net/cissyring/archive/2008/05/29/2493865.aspx文章一:ETL和Kettle简介 ETL 即数据抽取( Extract )、转换( Transform )、装载( Load )的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时...
2009-05-20 16:34:39 138
log4j 连接数据库
table: ---------------- create table log4j_messages ( log_id serial not null, message varchar(2000), classtype varchar(255), priority varchar(64), log_date timesta...
2009-05-06 15:51:46 172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人