- 博客(8)
- 收藏
- 关注
原创 Lucene 全文检索实践四
对于 Lucene 的初步研究已经过去一段时间,自己感觉还不是很深入,但由于时间的关系,一直也没再拿起。应网友的要求,将自己实践中写的一些代码贴出来,希望能对大家有用。程序没有做进一步的优化,只是很简单的实现功能而已,仅供参考。在实践中,我以将 PHP 中文手册中的 HTML 文件生成索引,然后通过一个 JSP 对其进行全文检索。 生成索引的 Java 代码:/** * PHPDocIndexer
2005-11-25 14:45:00 1958
原创 Lucene 全文检索实践三
今天总算有些空闲时间,正好说说第二种方案:使用 mod_jk 做桥接的方式,将 servlet 引擎结合到 httpd 中。环境* PHP 4.3.6 prefix=/usr* Apache 1.3.27 prefix=/usr/local/apache* j2sdk1.4.1_01 prefix=/usr/local/jdk* jakarta-tomcat-4.1.24 prefix=/usr/
2005-11-25 14:43:00 1743
原创 Lucene 全文检索实践二
Java 的程序基本编写完成,实现了对中文的支持。下一步是将其放到 WEB 上运行,首先想到的是使用 JSP,安装了Apache Tomcat/4.1.24,默认的发布端口是 8080。现在面临的一个问题是:Apache httpd 的端口是 80,并且我的机器对外只能通过 80 端口进行访问,如果将 Tomcat 的发布端口改成 80 的话,httpd 就没法对外了,而其上的 PHP 程序也将无
2005-11-25 14:40:00 1665
原创 Lucene 全文检索实践一
Lucene 是 Apache Jakarta 的一个子项目,是一个全文检索的搜索引擎库。其提供了简单实用的 API,通过这些 API,可以自行编写对文件(TEXT/XML/HTML等)、目录、数据库的全文检索程序。Features:* Very fast indexing, minimal RAM required* Index compression to 30% of original te
2005-11-25 14:38:00 2138 1
原创 全文检索工具包Lncene工作原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我
2005-11-25 14:36:00 2262 5
原创 基于Lucene/XML的站内全文检索解决方案
内容摘要:为Lucene做一个通用XML接口一直是我最大的心愿:更方便的在WEB应用中嵌入全文检索功能提供了XML的数据输入接口:适合将原有基于各种数据库的数据源导入到全文索引中,保证了数据源的平台无关性; 通过了基于XML的搜索结果输出:方便了通过XSLT进行前台的结果显示; MySQL /
2005-11-24 10:15:00 1679
原创 针对Yahoo做搜索引擎优化SEO
Yahoo推出的新搜索引擎机器人叫YahooSlurp。针对YahooSlurp的网站优化要注意几点: YahooSlurp跟GoogleBot一样,顺着每个HREF链接找到网站。它不会抓取SRC链接,如图片或框架。如果优化一个使用了框架的网站,要使用 <noframes> 标签。YahooSlurp可以跟踪动态页面链接,但Yahoo还是建议用文本链接来指向动态页面,因此做一个网站地图
2005-11-23 14:53:00 3197
原创 Alexa作弊实战
有幸在网上找到Alexa的工作原理,遂产生萌念,作它一次弊!·初探:Alexa排名在前一两年,直至现在,都成了许多站长追求的目标之一,许多论坛的站长都要求他们的版主装上Alexa工具条,以提高自己的网站的排名。本人在网上有幸看到一篇文章,说的是Alexa的两个DLL文件AlxTB1.dll、AlxRes.dll,其中AlxRes.dll里面放的是大量的脚本、图片、HTML等代码。有兴趣了解的可以到
2005-11-21 14:30:00 4174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人