Erik的观点: 1、最好利用类似PyLucene 的方式来实现lucene的多语言化。 2、Lucene 1.9/2.0 将会发生重大变化。(我正在翻译中)多语言的lucene,要么很难在时间上和java lucene保持兼容,要么迁移到多语言的过程很辛苦。每个commit,你都需要跟踪,然后修改...... 阅读全文>
发表于 @ 2007年09月01日 21:10:00|评论(loading...)|编辑|收藏
网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。阅读全文>
发表于 @ 2007年08月14日 03:09:00|评论(loading...)|编辑|收藏
这里我们主要来介绍一个具有基本功能的Web引擎的实现。本文,我们以类C 语言的形式来描述Web引擎如何采集网页并存放到数据库中的过程。同时描述了如何根据用户输入的关键字查询数据库并得到相关网页的过程。
阅读全文>
发表于 @ 2007年08月13日 23:39:00|评论(loading...)|编辑|收藏
礼貌的抓取具体表现在:网站不让抓取的网页就不要抓取,控制好访问网站的频率,spider的抓取行为不能影响正常用户的访问。因此spider在抓取时要: (1)限制单位时间内对一个网站抓取网页的数量。 (2)限制同时对同一个网站抓取的线程/进程的数量。(3)控制对同一个网站抓取的时间间隔。(4)遵循robots、META Tag 、sitemap.htm协议 ,对不允许访问的目录不访问。(5)在抓取网页的时发送的请求中,通过User-agent、Form字段,标识spider的身份、联系Email、spdier注意事项页面URL。阅读全文>
发表于 @ 2007年08月13日 22:10:00|评论(loading...)|编辑|收藏
作者用编程实例说明了一下问题:值得一看。
1、垂直搜索引擎的定义
2、蜘蛛的主要任务
2.1 检索器
2.2 页面获取
2.3 页面解析
2.4 页面JS解析
3 信息抽取
3.1 列表页面的处理
3.2 详细页面的处理
阅读全文>
发表于 @ 2007年08月03日 23:41:00|评论(loading...)|编辑|收藏
第一次写蜘蛛的程序时,阅读了很多规范,同时找到了几个c#代码的(c#是朋友要求的语言)免费的Html解析的库(我记得有一个是解析SGML规范的)。可惜的是,国内的页面都是乱七八糟的,这2个库根本就是无能为力,连163的首页都无法正确解析。于是,我只好自己写了,代码不是很长(三五千行),构建dom树。(后来我把这个程序的结果发给百度,想找份工作,结果未见回音)当时遇到的主要问题有三:1)dom树的解析和容错;2)多线程下载和Url过滤;3)页面编码的分析。阅读全文>
发表于 @ 2007年07月28日 11:05:00|评论(loading...)|编辑|收藏
在给用户带来便利的同时,新的搜索引擎带来了一系列围绕技术规则改变而衍生的商业模式潜在变化。比如,在基于对象的搜索引擎中,传统的网页排名方法(PageRank)已不适用。微软亚洲研究院的研究员们提出了流行度排级(PopRank)。阅读全文>
发表于 @ 2007年07月28日 10:47:00|评论(loading...)|编辑|收藏
最近两个月研究了相关度搜索引擎的一些知识,对Xapian和Omega(一个基于Xapian的应用)的代码进行了一定量的修改,开发出了一款轻量级的基于中文字典词库的相关度搜索引擎。阅读全文>
发表于 @ 2007年07月24日 03:10:00|评论(loading...)|编辑|收藏
SF超高速FTP搜索引擎是全国新一代超高速FTP全站搜索引擎之一,索引速度远高于同类产品,在两千万候选项中查询两百万结果只在毫秒量级即可完成。并且支持多种排序方式、站点快照等贴近用户使用的功能。
本搜索引擎由哈尔滨工业大学学生利用业余时间开发,采用GPL开源协议全球公开发行,面向全国提供FTP站点文件检索服务,拥有相当的声誉及客流量,现在定位为成为全亚洲头号FTP搜索引擎,还在不断的发展与完善中。
阅读全文>
发表于 @ 2007年07月22日 10:06:00|评论(loading...)|编辑|收藏