搜索引擎
文章平均质量分 76
jiutao_tang
多少事,从来急;天地转,光阴迫。一万年太久,只争朝夕。
展开
-
Autonomy 基于语义的搜索
Autonomy的核心是建立在独特的信息论和概率论的基础之上的模式识别技术,它可以保证对任何形式的信息:文本文件或基于语音、视频、非结构化或结构化的实际内容的基本理解。 现在网络应用软件主要为三层结构:用户界面层、应用软件层和数据层。这样的结构所存在的问题是,不同的应用软件不能实现信息共享。信息源与信息源之间有不可跨越的屏障,来自不同信息源的信息有不同的格式。Autonomy创建了一个新的信息层:智能信息操作层IDOL,自动把各个信息源和各种文件格式统一在一个智能的信息操作系统之下,这个智能信息操作转载 2011-01-06 16:23:00 · 901 阅读 · 0 评论 -
Nutch 二次开发总结 - Nutch查询分析得出的结论
Nutch 二次开发总结Nutch构建好了一种搜索引擎架构,在此基础上可以进行二次开发,实现个人规模的搜索引擎、企业局域网搜索引擎、对整个WEB的搜索引擎等不同规模的搜索引擎。另外还可以为达到一些特殊的目的建立起的搜索引擎。不论是建立何种规模的搜索引擎,一般情况下都需要对其进行二次开发,对源代码进行相应的功能性修改。通过本次实验,我们总结出一些二次开发中的重点环节,这里做一个大致的转载 2011-06-03 15:31:00 · 2486 阅读 · 0 评论 -
Nutch 中文分词 庖丁分词组件
1 中文分词介绍目前,Nutch中文分词方式大致有两种方式:一是修改源代码。这种方式是直接对Nutch分词处理类进行修改,调用已写好的一些分词组件进行分词。二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。以上两种方式都是可取的。目前,由于开源社区的活跃,已经有很多种分词组件的出现,无论是修改源代码的方式还是编写分词插件的方式,都是依赖于这些分词组件的。下面列出了主要的一些分词组件:1、CJKAnalyzerLucene自带的一种中日韩分词器。原创 2011-06-01 09:43:00 · 2674 阅读 · 0 评论 -
Nutch 二次开发需要修改的东西
nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不然会build.xml失败的。指明了一些文件的位置,可以很方便的在此进行修改。参考该文 Nutch:原创 2011-06-03 11:14:00 · 9218 阅读 · 3 评论 -
Nutch距离一个商业应用的搜索引擎还有多远收藏
了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大人民群众提供了一块大大的蛋糕,为进入搜索这个行业大大降低了门槛。那么它距商业的搜索到底有多远呢?以我的个人观转载 2011-06-04 10:42:00 · 1535 阅读 · 0 评论 -
nutch如何才能抓取到动态的url,配置文件解析
在运行的时候不会抓取到,分析了一下原因:主要在conf/crawl-urlfilter.txt.分析:使用nutch默认的配置过滤文件的话,是不抓取到包含?*!@=等字符的URL解决办法:修改crawl-urlfilter的过滤规则,# The url filter file used by the crawl command.# Better for intranet c原创 2011-06-04 10:51:00 · 3622 阅读 · 0 评论 -
爬虫调研II:Nutch的工作流程和扩展性
Nutch 的工作流程可以分为两个大的部分:抓取部分与搜索部分。抓取程序抓取页面并把抓取回来的数据进行反向索引,搜索程序则对反向索引进行搜索回答用户的请求,索引是联系这两者的纽带。 I. create db 建立并初始化的 WebDB 。 webDB 用于存储的 URL 和页面内容。 webDB 包括 crawldb 和 linkdb 。 crawldb 就是 Page转载 2011-06-04 10:30:00 · 1428 阅读 · 0 评论 -
Nutch 源码分析
Indexer分析 http://hi.baidu.com/bupo_jung/blog/item/7ed51400cb7edf07728b659b.html LinkDb分析 http://hi.baidu.com/bupo_jung/blog/item/561fcc240a866a3ed40742da.html Nutch 1.0 源码分析系列 http://quweipr原创 2011-06-06 16:03:00 · 1770 阅读 · 0 评论 -
Nutch中MapReduce的分析
Google MapReduce研究综述 MapReduce研究探讨体会 MapReduce : Simplified Data Processing on Large Clusters MapReduce基础 未读Hadoop 分布式计算技术专题 Nutch 是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的p原创 2011-06-08 11:01:00 · 2206 阅读 · 1 评论 -
Nutch的URL选择策略 OPIC IN NUTCH
突 然发现这句话对于网络爬虫也是很有启发意义的,对于浩瀚无边的互联网而言,网络爬虫涉及到页面确实只是冰山一角。因此,如何确定一个页面的重要性,从而在 抓取过程中进行合理的调度,以最小的代价(硬件、带宽)获取到最大的利益(数量最多的重要的网页)是设计网络爬虫过程中的一个核心问题。 一个页面是否重要本来是一个比较主观的问题,见仁见智。但是如果大部分人都认为一个页面是重要的,那么我们大都会相信众人的判原创 2011-06-09 09:17:00 · 1301 阅读 · 0 评论 -
Nutch 索引分析
Nutch 每条索引记录的字段url: 作为唯一标标识值,由BasicIndexingFilter类产生。 segment: 由Indexer类产生。Nutch抓回来的页面内容放在segments目录,lucene只会索引,不会store原文内容,因此在查询时要以 segment与url作为外键,由FetchedSegments类根据hitsDetail从segments目录获得conte原创 2011-06-09 11:29:00 · 1465 阅读 · 0 评论 -
Nutch 使用总结二
必读文档:Introduction to Nutch, Part 1: CrawlingIntroduction to Nutch, Part 2: Searching 把Nutch搜索融入我们的应用中,有两种方法:Java程序可以直接使用Nutch API非Java程序,比如PHP,可以使用OpenSearch APINutch官网 维基、FAQ等原创 2011-06-09 11:29:00 · 1070 阅读 · 0 评论 -
Nutch 评分机制分析
Nutch构建于Lucene之上,可以通过学习Lucene的评分机制来了解Nutch评分。Lucene的打分公式可以在Lucene的Similarity类中看到。详见文档Lucene Similarity Javadoc.大体上:查询结果集中一个特定文档的得分score(q,d),是查询中每一个词项的得分之和(t in q);一个词项对于一个文档的得分,是该词项在文档不同的域f原创 2011-06-09 21:01:00 · 3290 阅读 · 1 评论 -
Nutch 读取搜索结果目录统计数据、提取链接结构信息
详看 Nutch命令 有中文介绍1.readdb读取Crawldb目录数据的一个命令检索完成后的第一件事情当然是查看一下数据库中的网页和链接的数目,这可以让我们确信Nutch已经成功的爬行了网页。Readdb 工具解析Crawldb目录并以可读的形式显示数据。The readdb tool parses the WebDB and displays portions of it i原创 2011-06-09 11:04:00 · 4871 阅读 · 1 评论 -
Nutch 的命令
Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下:1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl [-dir d] [-threads n] [-dep原创 2011-06-01 16:47:00 · 3158 阅读 · 1 评论 -
Lucene和Nutch的文章荟萃
车东的 Lucene:基于Java的全文检索引擎简介Nutch 初体验很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。2.Tutorial (0.8.x)这里是官方的那个文档,补全了少的那一步。否则出现后果为Fetcher: segment: info/segments/20061207221006Fetcher: threads: 4fetching http://stu原创 2011-05-28 16:03:00 · 1319 阅读 · 0 评论 -
2.创建索引
创建索引搜索引擎的一般建立过程:抓取数据、解析数据、创建索引和执行搜索。Lucene提供了创建索引和执行搜索的API,数据抓取和解析需要通过其它途径实现。创建索引的过程:(1) 建立索引器IndexWriter(2) 建立文档对象Document(3) 建立信息字段对象Field(4) 将Field添加到Document(5) 将Document添加到IndexWriter(6) 关闭IndexWriter三个基本步骤:(1原创 2011-01-16 16:24:00 · 768 阅读 · 0 评论 -
4.中文分词
Lucene默认情况下(即使用StandardAnalyzer的时候)对中文进行单字分词,即为每个字建立索引。文档中有JE和IK分词器的介绍和实例。1. 分词方法l 单字分词l 二分法:把一段文字的每两个相邻的字算作一个词。如“我爱你中国”,将被分为“我爱”、“爱你”、“你中”、“中国”l 词典法:建立词典文件,词典与文字段落匹配,词典和匹配算法是关键l 语义法:2. Lucene分词器2.1二分法分词器在L原创 2011-01-16 16:28:00 · 1279 阅读 · 0 评论 -
5.常用的数据解析组件
<br /><br /> <br />数据解析的过程就是从一种格式的数据文档中提取出我们需要的信息。<br />Word、Pdf、Excel、XML1. 解析PDF文档<br />PDF(PortableDocument Format,便携式文档格式)<br />PDFBox是一个开源的,可以操作PDF文档的Java PDF类库。它可以创建新的PDF文档,操作现有的PDF文档并提取文档中的内容。<br />主页:http://pdfbox.apache.org/<br />目录:<br原创 2011-01-16 16:30:00 · 1568 阅读 · 2 评论 -
6.索引的建立和优化
<br /><br />索引的建立和优化1. 索引建立的过程<br />1.1Lucene索引机制<br />首先,将不同格式的文件通过相应的解析器解析成文本形式<br />然后,调用分析器对文本进行分析,主要是做分词,以构建倒排索引<br />最后,建立索引。也就是先将逻辑Document加入到IndexWriter中,然后利用IndexWriter和本地文件系统的关联,将索引建立在本地硬盘上。<br />1.2文本分析<br />(1)对不同文本使用不同的分析器<br />Index原创 2011-01-16 16:32:00 · 1560 阅读 · 0 评论 -
7.索引的管理
<br />1. 查看索引的信息<br />l 通过IndexWriter类读取索引的相关信息,将其显示出来<br />l 通过IndexReader及其子类读取读取索引的相关信息,将其显示出来<br />l 通过可视化工具(如Luke和Limo)查看索引相关信息<br /> <br />1.1 使用IndexWriter类读取索引相关信息<br />该类不是用于查看索引的类,使用它不是最佳方法<br />String index原创 2011-01-16 16:34:00 · 1511 阅读 · 2 评论 -
8.搜索请求的过滤和解析
<br /><br />主要内容:组合关键词搜索、关键词的解析、多索引搜索、多线程搜索1. 构建多种搜索请求<br />前面介绍了使用TermQuery构建最基本的搜索,即普通的关键词搜索。<br />在Lucene中,使用Query对象封装搜索请求。Query类本身是一个抽象类,其不同的子类(TermQuery、BooleanQuery)分别用来构建不同的搜索请求。<br /> <br />1.1词条搜索TermQuery<br />词条搜索就是TermQuery。首先构建Term,然后以原创 2011-01-16 16:35:00 · 1488 阅读 · 0 评论 -
9.搜索结果的处理和显示
<br /><br />1. 提取搜索结果<br />Lucene中,搜索结果保存在Hits对象中,提取搜索结果就是从Hits对象中提取出文档,然后再从文档中提取各个字段。<br />1.1 Hits对象的方法<br />l Document doc(int n) 返回指定序号的Document。Doc对象的getField(“”)方法获取字段<br />l Int id(int n) 返回指定序号的Document的id属性<br />l原创 2011-01-16 16:36:00 · 1348 阅读 · 0 评论 -
一句话入门SEO【转】
一句话入门SEO<br />1、SEO是什么?<br />全称叫搜索引擎优化。<br /><br />2、SEO了之后,有什么结果呢?<br />SEO的目的是一方面让你的网站某些词排名提高,另一方面让你网站的流量整体提高。<br /><br />3、如何知道网站在搜索引擎上的排名情况呢?<br />你先需要知道,希望有排名的是什么词?比如:SEO十万个为什么这个网站,希望有排名的是 SEO,那么你可以直接在百度或Google上搜索SEO,然后去查找自己的网站。如果20页之内没有自己的网站,则一般就不用找了转载 2011-01-16 17:04:00 · 628 阅读 · 0 评论 -
1.Lucene 基础知识
Lucene简介Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene目前是Apache Jakarta家族中的一个开源项目。也是目前最为流行的基于Java开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于Lucene的,比如Eclipse的帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene就能对你的文档进行索引和搜索。比如你要对一些HTML文档,PDF原创 2011-01-16 16:23:00 · 727 阅读 · 0 评论 -
3.执行搜索
<br /><br />使用Lucene执行搜索,首先要创建IndexSearcher对象,然后通过Term和Query对象来封装用户输入的搜索条件,最后将结果封装在Hits对象中,返回给用户。<br />1. 创建搜索器对象 IndexSearhcer<br />IndexSearcher searcher = new IndexSearcher(索引存放的路径);<br />对象的search()方法返回一个结果集对象<br />Hits h = searcher.search();<原创 2011-01-16 16:27:00 · 624 阅读 · 0 评论 -
Lucene搜索引擎开发权威经典 第14章 WEB搜索引擎开发实例 部署
1. 类编译FileList.javatoolExtractorTXT.javaextractorsExtractorPDF.javaextractorsPDFBox-0.7.3.jar; FontBox-0.1.0-dev.jarExtractorHTML.javaextractorshtmlparser.jarExtractorExcel.javaextractorsjxl.jarExtractorXML.javaextractorsdom4j-1.6.1.jar;jaxen-1.1-bet原创 2011-03-20 16:08:00 · 1465 阅读 · 0 评论 -
Lucene 搜索词分词
搜索词分词也即对用户输入的搜索词进行分词处理,如“民族 信仰”。如果不对它进行分词,可能搜索不到东西,但单独搜索“民族”或“信仰”抑或“民族信仰”都可以搜到东西,故要对其进行分词。两种方法:(1)空格分词,字符串处理单个词项搜索的代码://搜索 text 字段 原来的语句//Term t = new Term("text", phrase); //生成Query对象//Query q = new TermQuery(t);修改后的,空格隔开的多个词项的搜索BooleanQuery q =原创 2011-03-21 15:41:00 · 2242 阅读 · 0 评论 -
tomcat如何将根目录设为web工程目录
<br /> 在tomcat6的server.xml文件中找到<Host>节点,并向<Host>节点中加入如下的子节点。<br /><Context path="" docBase="d:/webproject"<br /> debug="5" reloadable="true" crossContext="true"/><br /> 这样一来,就无法访问tomcat的管理程序了。我们可以将管理程序目录(webapps/ROOT)映射到其他的web路径上。如下面的配置将管理程序映射到了/原创 2011-05-28 09:25:00 · 1669 阅读 · 0 评论 -
Nutch 使用总结
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch使用方法简介: http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspx nutch1.2 eclipse tomcat6.0 配置 :http://hi.baidu.com/oliv原创 2011-05-27 15:07:00 · 12497 阅读 · 4 评论