自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 利用Nutch实现分类搜索(三)(加入query plugin)

此篇文章是把type字段的搜索加入到nutch中,到此所有工作即将完成,让我们看看如何做这一步。在src/plugin/目录下加入query-type目录,其中的文件结构可以参考query-url,并作相应的修改。加入TypeQueryFilter.java文件,目录层次为query-type/src/java/com/zju/repu/searcher/type/TypeQueryFilter.java,实现FieldQueryFilter接口。实现很简单。package com.zju.repu.sea

2011-04-06 11:10:00 1384

原创 利用Nutch实现分类搜索(二)(加入urlfilter plugin)

<br />其实有了上篇文章的index plugin,Crawl已经可以正确地把网址根据不同的type分类索引,本文加入urlfilter plugin是为了更进一步,把Crawl抓取的网址限定在我们定义的type之类,而不是什么网页都抓取。<br />在src/plugin/目录下加入urlfilter-type目录,其中的文件结构可以参考urlfilter-regex,并作相应的修改。<br />加入TypeURLFilter.java文件,目录层次为urlfilter-type/src/java/c

2011-04-06 10:46:00 2096

原创 利用Nutch实现分类搜索(一)(加入index plugin)

大家在用Google的时候会发现可以按分类来搜索,例如可以搜新闻、博客和购物等等,本文将通过在Nutch中加入插件的方式来实现此功能。本文假设读者对Nutch有一定的了解,至少编译成功Nutch,并用Nutch提供的Crawl来抓取网页。加入index的plug在利用luke查看抓去的数据时,可以发现默认有十几个fileds,例如title、url和content等等,我们也要加入一个field用来表示网站类型。在src/plugin目录下创建index-type目录(可以参考index-basic的目录结

2011-04-02 15:06:00 2488 4

原创 PHP中调用Java的代码

<br />我的项目前期用CakePHP开发了一个前台的网站,现在需要在PHP中直接访问Nutch的API接口,很是头痛,这几天一直在调研和Demo。<br />其实都是前人已经做过的事情,我只是把他们整合起来。<br />第一步,需要利用JAX-WS架设一个Web服务,参见IBM的一篇文章<br />第二步,写了一个PHP的Demo程序,如下:<br /><?php // DON'T CACHE the SOAP on the PHP server $ini = ini_set("s

2011-03-24 17:35:00 1684 3

原创 汽车电瓶没电自救

<br />中午从办公室出发停车场,打不开车门,把我急坏了,不知道什么问题,一看车灯昏暗地亮着,原来忘关车灯,把电池给耗玩了。还好公司离家不远,坐公车回家,带回一堆线,拨线钳和万用表。<br />下午叫了三个同事,一个同事把车开到我车停的地方,另外两个帮我推车,没启动车的方向盘还真沉啊,好不容易把两车头对头搞到了一起,把线接好,但是还是发动不了,连主车窗都摇不下来,其中一跟是电话线4股并1股,还有一根是3mm的铜线,用万用表测量我的电瓶的电压11.70v,虽然高于原来的9V,但是还是发动不了。我用手摸电话线

2011-03-14 17:36:00 1717

原创 Nutch源代码浅析(四)探究fetch的工作原理

我们来看看fetch是如何工作的,如何启动多线程。看1087行,创建了一个NutchConf,在nutch中,用到了hadoop库来管理分布式的文件系统和作业处理,NutchConf从JobConf继承而来,作为一个Job的运行参数,其中提供了Job所需的所有信息。1090行,fetcher的运行线程数是通过JobConf来传递的,而后设置输入路径,输入内容的格式,job.setMapRunnerClass则是设置Map操作的运行类,这是所有fetcher工作的核心部分,在hadoop的runJob的过程中

2011-03-11 17:08:00 1689

原创 Nutch源代码浅析(一)(概述)

 Nutch源代码浅析(一)1. Nutch介绍    由两个部分组成:Crawling和Searching,Crawling部分负责抓取网页和建立索引,而Searching则是将Crawling过程中建立的index和segments根据用户的搜索请求返回结果。本文分析的是apache-nutch-1.2。2. Nutch的主流程    在bin/目录下有一个nutch的脚本,这个脚本将被安装到安装目录的bin目录下,大体作用根据本脚本的路径得到nutch的安装目录(其中考虑到了nutch是soft li

2011-03-11 15:29:00 1194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除