![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Search Engine
文章平均质量分 83
iteye_14216
这个作者很懒,什么都没留下…
展开
-
搜索引擎Nutch源代码研究之一 网页抓取(1)
搜索引擎Nutch源代码研究之一 网页抓取:Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-fileProtocol-ftp protocol-http protocol-httpclient以及相应的Parser插件中:下面我们先从org.apache.nutch.fetcher开始:最主要的类是Fetc...2007-12-14 20:18:13 · 101 阅读 · 0 评论 -
使用Jsoup抽取数据
Jsoup是一个Java的HTML解析器,提供了非常方便的抽取和操作HTML文档方法,可以结合DOM,CSS和Jquery类似的方法来定位和得到节点的信息。有着和Jquery一样强大的select和pipeline的API。我们以从58同城网抽取租房信息为例,来说明如何使用它:[code="java"]package testimport org.jsoup.nodes.D...原创 2011-03-20 19:22:39 · 183 阅读 · 0 评论 -
(zz)信息检索领域资料整理
A Guide to Information RetrievalOrganized by Hongfei YanLast updated on July 27, 2007http://sewm.pku.edu.cn/IR-Guide.txtContentsBooks + Finding Out About: Search Engine Technology from a cognitive ...原创 2010-06-05 13:05:59 · 1283 阅读 · 0 评论 -
Query Log Mining notes
Enhancing Efficiency of Search Systems• Caching Results: in answer to a user query Posting Lists: e.g. for the query “new york” cache the posting lists for term new and for term ...2009-10-02 18:08:35 · 62 阅读 · 0 评论 -
百度搜索的一些高级语法
1.title语法就是在title中按照关键字搜索,例如:title:科帕奇。同类的语法还有intitle,个人感觉效果是一样的。2. filetype语法很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。例如:filetype:ppt php。目前百度支持的文档类型为doc,pdf,xls,ppt,wps,rtf,lrc...2009-08-27 20:06:56 · 1006 阅读 · 0 评论 -
Hadoop好书推荐:Hadoop The Definitive Guide
第一本详细介绍Hadoop的书籍,从网上下来看了几章,作者是Hadoop的一个主要参与者Doug Cutting写的,很详细很不错。2009-08-16 22:49:25 · 126 阅读 · 0 评论 -
常见文件类型识别
根据文件的后缀名识别文件类型并不准确,可以使用文件的头信息进行识别:以下是各类文件的头:JPEG (jpg),文件头:FFD8FFE1PNG (png),文件头:89504E47 GIF (gif),文件头:47494638 TIFF (tif),文件头:49492A00 Windows Bitmap (bmp),文件头:424D CAD (dwg),文件头:41433...原创 2010-09-22 20:09:51 · 625 阅读 · 0 评论 -
Introduce to Inforamtion Retrieval读书笔记(2)
The term vocabulary and postings listsInverted index construction step:1. Collect the documents to be indexed.2. Tokenize the text.3. Do linguistic preprocessing of tokens....2009-10-31 13:02:06 · 163 阅读 · 0 评论 -
Introduce to Inforamtion Retrieval读书笔记(1)
很好的一本书,介绍的非常全面,看了很久了,还没有看完,刚看完前十章,发现前面看的都忘的差不多了,还是回来记一下吧。Boolean Retrieval 一、information retrieval定义:学院派定义:Information retrieval (IR) is finding material (usually documents) ofan u...2009-10-25 23:49:51 · 188 阅读 · 0 评论 -
Java开源搜索引擎[收藏]
Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。更多Egothor信息 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。更多Nutch信息...2008-04-24 00:09:02 · 195 阅读 · 0 评论 -
分享一本斯坦福的信息检索的教材
斯坦福的信息检索的教材,还没出版,先分享一下电子版原稿.对于学习信息检索和搜索引擎是个相当好的教材.2008-01-04 23:59:28 · 399 阅读 · 0 评论 -
分享一本搜索引擎的电子书
还没有来得及看,但搜索引擎的书不是很好找,先放上,希望对大家能有用2007-12-29 19:42:04 · 318 阅读 · 0 评论 -
分享一个Nutch入门学习的资料
分享一个Nutch入门学习的资料,感觉写的还不错.2007-12-18 20:49:07 · 88 阅读 · 0 评论 -
搜索引擎Nutch源代码研究之一 网页抓取(4)
今天来看看Nutch如何Parse网页的:Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Event driver的接口]来提取网页。如果你用惯了XML一套处理方法,使用NekoHTML和TagSo...2007-12-17 22:37:58 · 152 阅读 · 0 评论 -
[转]MAP/REDUCE:Google和Nutch实现异同及其他
设计要素nutch包含以下几个部分:辅助类Log:记载运行信息;Time:记载时间信息;协议类目的:各种进程之间的通信协议Client和M/R系统通信协议:完成客户端和M/R系统的通信; Job和Task系统通信协议:由于一个任务要分布完成,所以需要任务和子任务之间的通信协议; MapTask和ReduceTask通信协议:由于MAP和REDUCE是一个任务的顺序执行过程,所以需...2007-12-15 19:21:15 · 78 阅读 · 0 评论 -
Nutch源代码学习小小总结一下
我现在看得源码主要是网页抓取部分,这部分相对比较容易。我首先定位所有与网页抓取部分,大体看了整个流程后,然后几乎看了所有函数的实现,当然也有许多不太明白的,相信随着逐渐对整个代码的熟悉,这些疑问会逐渐解决。现在有一些疑问就是Nutch为什么没有使用异步的Socket和缓冲DNS来提高抓取的效率(或许我还没有找到)。Nutch的代码整体上写的还算通俗易懂。但Nutch大量使用了Google的Map...2007-12-15 19:13:03 · 80 阅读 · 0 评论 -
搜索引擎Nutch源代码研究之一 网页抓取(3)
今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable 实现了Writable, Cloneable接口,Nutch许多类实现了Writable, Cl...2007-12-15 16:39:37 · 78 阅读 · 0 评论 -
搜索引擎Nutch源代码研究之一 网页抓取(2)
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpResponse的一个Facade,设置配置信息,然后创建HttpRespose。用户似乎只需要和Htt...2007-12-15 00:36:34 · 132 阅读 · 0 评论 -
Information Retrieval Resources
InformationRetrieval ResourcesInformation on Information Retrieval (IR) books, courses, conferences andother resources.Books on Information Retrieval (General)Introduction to Informa...原创 2011-04-07 16:40:14 · 176 阅读 · 0 评论