![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Search Engine
文章平均质量分 84
iteye_12007
这个作者很懒,什么都没留下…
展开
-
lucene教程
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是 数据库的一行记录,Field可以看作是数据库的字段。用lucene实 现搜索引擎就像用JDBC实现连接数据库一样简单。 Lucene2.0,它与以前广泛应用和介绍的Lucene 1.4...原创 2010-10-24 18:34:07 · 56 阅读 · 0 评论 -
nutch官网下载,compass官网下载,lucene官网下载
nutch官网下载,compass官网下载,lucene官网下载nutch官网下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/ lucene在jakarta项目中的发布主页 [url]http://jakarta.apache.org/lucene/docs/index.html [/url] 以下主要针对windows用户,...原创 2010-12-06 21:52:40 · 138 阅读 · 0 评论 -
Java开源搜索引擎[收藏]
Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。更多Egothor信息 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web...原创 2010-12-06 21:49:52 · 89 阅读 · 0 评论 -
索引擎Nutch源代码研究之一 网页抓取(4)
今天来看看Nutch如何Parse网页的: Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。 当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Event driver的接口]来 提取网页。如果你用惯了XML一套处理方法,使用NekoHTML和TagSoup应...原创 2010-12-06 21:48:53 · 95 阅读 · 0 评论 -
搜索引擎Nutch源代码研究之一 网页抓取(3)
今天我们看看Nutch网页抓取,所用的几种数据结构: 主要涉及到了这几个类:FetchListEntry,Page, 首先我们看看FetchListEntry类: public final class FetchListEntry implements Writable, Cloneable 实现了Writable, Cloneable接口,Nutch许多类实现了Writable, Cloneab...原创 2010-12-06 21:47:05 · 107 阅读 · 0 评论 -
搜索引擎Nutch源代码研究之一 网页抓取(2)
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpResponse的一个Facade,设置配置信息,然后创建HttpRespose。用户似乎只需要和Http类...原创 2010-12-06 21:46:24 · 126 阅读 · 0 评论 -
搜索引擎Nutch源代码研究之一 网页抓取(1)
搜索引擎Nutch源代码研究之一 网页抓取: Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file Protocol-ftp protocol-http protocol-httpclient以及相应的Parser插件中: 下面我们先从org.apache.nutch.fetcher开始: 最主要的类是Fetcher类...原创 2010-12-06 21:45:38 · 124 阅读 · 0 评论 -
一个简单的JAVA网页爬虫
public class Access implements Runnable{ HttpURLConnection huc; InputStream is; BufferedReader reader; String url; public Access(){ try { url="http://www....原创 2010-12-05 14:26:51 · 64 阅读 · 0 评论 -
Google的PageRank原理
PageRank我想稍微接触过网络的人都知道,很多博客站长最关心的话题,也可以说成是一个博客或者网站是否受欢迎(流行度)的衡量标准。在这里我依然把 PageRank的定义给大家复述一下,PageRank:又称“佩奇等级”或者PR值,是以Google公司创始人之一拉里.佩奇(Larry Page)而命名。“佩奇等级”着重考察的是网站的权威性,说的更通俗一些也就是网站内容能满足大众的搜索...原创 2010-12-02 12:50:33 · 146 阅读 · 0 评论 -
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词...原创 2010-12-02 12:49:58 · 83 阅读 · 0 评论 -
搜索引擎概述
搜索引擎的概念 搜索引擎是一应用于web上的软件系统。该系统基于用户输入的查询关键字,在web上搜索、过滤相关信息,经整理后反馈给用户。整个过程所实现的最终效果是:搜索引擎通过对web的检索、过滤和整理,实现了面向用户需求的信息聚合。 搜索引擎按服务方式不同所进行的分类及各自特点 搜索引擎按服务方式的不同可分为目录式搜索引擎、全文搜索...原创 2010-12-02 12:49:30 · 576 阅读 · 0 评论 -
国内搜索引擎技术现状
当你登录某一个网站,在互联网上搜索各个网站的某一类内容,比如,输入“WTO”,希望得到最新、最全面的信息,你能等待多长时间?几年前,人们希望十几秒,最多30秒钟就能得到结果,而现在的期望值是1~2秒,也就是说,伴随点击鼠标的“咔哒”一声,显示屏的页面已经变了,排在最前面的十几、二十条信息的标题已经出现在你的面前。哪个网站的搜索速度明显地变快了,那它一定是使用了先进的搜索引擎技术。搜索引擎是仅...原创 2010-12-02 12:48:51 · 423 阅读 · 0 评论 -
搜索引擎的技术发展趋势
搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面: 一、提高搜索引擎对用户检索提问的理解 为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of compu...原创 2010-12-02 12:48:26 · 544 阅读 · 0 评论 -
什么是第三代搜索引擎
(www.marketingman.net 冯英健 2005-02-18)第三代搜索引擎搜索引擎一词在2004年的媒体曝光率非常高,重要原因之一是国内服务商竞相推出“第三代搜索引擎”。2004年8月3日,国内知名门户网站搜狐正式推出全新独立域名专业搜索网站“搜狗”(www.sogou.com),并声称该搜索引擎是全球首家第三代中文互动式搜索引擎服务提供商。根据搜狐网站上的说明...原创 2010-12-02 12:48:00 · 1000 阅读 · 0 评论 -
聚焦爬虫
聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。 聚焦爬虫的研究核心,集中在以下两点: (一) 主题相关度计算:即计算当前已经抓下来的页面的主题相关程度。对主题相关度超过某一规定阈值的,即与主题相关的网页,将其保...原创 2010-12-02 12:45:00 · 474 阅读 · 0 评论 -
Google搜索引擎的工作流程
①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页,将遍历到的网页送到存储服务器(Store Server)中。② 存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository (贮藏室)中。Repository获得了 每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长...原创 2010-12-02 12:44:30 · 457 阅读 · 0 评论 -
福布斯评出最具发展潜力10大搜索引擎
美国知名财经杂志《福布斯》网络版周二评出了最具发展潜力的美国10大新型搜索引擎,称这些新型搜索服务商今后将从不同业务领域向搜索巨头谷歌发起挑战。《福布斯》称,虽然谷歌目前市场优势非常明显,但互联网搜索的后来者仍在加强技术开发。美国风险投资协会此前发布的Money Tree报告显示,2008年期间,美国50家搜索引擎创业公司融资总额达3.3亿美元。事实上,就Cuil.com、Pow...原创 2010-12-02 12:43:50 · 233 阅读 · 0 评论 -
网页爬虫程序pageSpider
2009-05-05 19:44该程序仅对单个URL所对应的page网页信息进行抓取(pageSpider.java)。程序流程图如下: import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamRead...原创 2010-12-02 12:34:52 · 159 阅读 · 0 评论 -
【转】搜索引擎最新技术发展分析
一、提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是...原创 2011-11-21 09:19:03 · 144 阅读 · 0 评论