- 博客(7)
- 收藏
- 关注
原创 利用Nutch实现分类搜索(三)(加入query plugin)
此篇文章是把type字段的搜索加入到nutch中,到此所有工作即将完成,让我们看看如何做这一步。在src/plugin/目录下加入query-type目录,其中的文件结构可以参考query-url,并作相应的修改。加入TypeQueryFilter.java文件,目录层次为query-type/src/java/com/zju/repu/searcher/type/TypeQueryFilter.java,实现FieldQueryFilter接口。实现很简单。package com.zju.repu.sea
2011-04-06 11:10:00
1384
原创 利用Nutch实现分类搜索(二)(加入urlfilter plugin)
<br />其实有了上篇文章的index plugin,Crawl已经可以正确地把网址根据不同的type分类索引,本文加入urlfilter plugin是为了更进一步,把Crawl抓取的网址限定在我们定义的type之类,而不是什么网页都抓取。<br />在src/plugin/目录下加入urlfilter-type目录,其中的文件结构可以参考urlfilter-regex,并作相应的修改。<br />加入TypeURLFilter.java文件,目录层次为urlfilter-type/src/java/c
2011-04-06 10:46:00
2096
原创 利用Nutch实现分类搜索(一)(加入index plugin)
大家在用Google的时候会发现可以按分类来搜索,例如可以搜新闻、博客和购物等等,本文将通过在Nutch中加入插件的方式来实现此功能。本文假设读者对Nutch有一定的了解,至少编译成功Nutch,并用Nutch提供的Crawl来抓取网页。加入index的plug在利用luke查看抓去的数据时,可以发现默认有十几个fileds,例如title、url和content等等,我们也要加入一个field用来表示网站类型。在src/plugin目录下创建index-type目录(可以参考index-basic的目录结
2011-04-02 15:06:00
2488
4
原创 PHP中调用Java的代码
<br />我的项目前期用CakePHP开发了一个前台的网站,现在需要在PHP中直接访问Nutch的API接口,很是头痛,这几天一直在调研和Demo。<br />其实都是前人已经做过的事情,我只是把他们整合起来。<br />第一步,需要利用JAX-WS架设一个Web服务,参见IBM的一篇文章<br />第二步,写了一个PHP的Demo程序,如下:<br /><?php // DON'T CACHE the SOAP on the PHP server $ini = ini_set("s
2011-03-24 17:35:00
1684
3
原创 汽车电瓶没电自救
<br />中午从办公室出发停车场,打不开车门,把我急坏了,不知道什么问题,一看车灯昏暗地亮着,原来忘关车灯,把电池给耗玩了。还好公司离家不远,坐公车回家,带回一堆线,拨线钳和万用表。<br />下午叫了三个同事,一个同事把车开到我车停的地方,另外两个帮我推车,没启动车的方向盘还真沉啊,好不容易把两车头对头搞到了一起,把线接好,但是还是发动不了,连主车窗都摇不下来,其中一跟是电话线4股并1股,还有一根是3mm的铜线,用万用表测量我的电瓶的电压11.70v,虽然高于原来的9V,但是还是发动不了。我用手摸电话线
2011-03-14 17:36:00
1717
原创 Nutch源代码浅析(四)探究fetch的工作原理
我们来看看fetch是如何工作的,如何启动多线程。看1087行,创建了一个NutchConf,在nutch中,用到了hadoop库来管理分布式的文件系统和作业处理,NutchConf从JobConf继承而来,作为一个Job的运行参数,其中提供了Job所需的所有信息。1090行,fetcher的运行线程数是通过JobConf来传递的,而后设置输入路径,输入内容的格式,job.setMapRunnerClass则是设置Map操作的运行类,这是所有fetcher工作的核心部分,在hadoop的runJob的过程中
2011-03-11 17:08:00
1689
原创 Nutch源代码浅析(一)(概述)
Nutch源代码浅析(一)1. Nutch介绍 由两个部分组成:Crawling和Searching,Crawling部分负责抓取网页和建立索引,而Searching则是将Crawling过程中建立的index和segments根据用户的搜索请求返回结果。本文分析的是apache-nutch-1.2。2. Nutch的主流程 在bin/目录下有一个nutch的脚本,这个脚本将被安装到安装目录的bin目录下,大体作用根据本脚本的路径得到nutch的安装目录(其中考虑到了nutch是soft li
2011-03-11 15:29:00
1194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人