nutch 1.2 系统学习
文章平均质量分 64
lijian_nhy
这个作者很懒,什么都没留下…
展开
-
重新配置nutch1.2 报 Exception in thread "main" java.io.IOException: Job failed!
重新配置nutch1.2 报 Exception in thread "main" java.io.IOException: Job failed! 网上解决的办法都不行,原来是配置: nutch-default.xml //自己添加的时没有认真的原因造成的。 <property> <name>plugin.folders</name>...原创 2010-12-29 20:47:30 · 188 阅读 · 0 评论 -
新手使用帮助:nutch 1.2 导入eclipse
nutch 为何物,在这儿我就不做介绍了,因为google比我管用哈。 今天我来介绍一下,nutch1.2更新版本的eclipse导入进入编译开发,为二次开发nutch做准备。 主要有以下几步: (一)安装cygwin,此步骤也很重要,不安装的话,会报环境错误。具体的安装过程google一下就ok了。 (二)下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并...2010-12-30 17:23:35 · 119 阅读 · 0 评论 -
今天在nutch1.2用jsoup解析了一下页面,挺爽的。用起来。
/** * 此实例用于采集tianya wenda的贴子及回复,组成一个map */ package org.apache.nutch.our; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; import org.jsoup.J...原创 2010-12-30 23:54:53 · 384 阅读 · 0 评论 -
今天执行nutch1.2报错:找不类 PassURLNormalizer(cygwin与在eclipse编程执行时的区别)
nutch-default.xml <property> <name>plugin.folders</name> <value>./src/plugin</value> <description>Directories where nutch plugins are located. Each ...原创 2011-01-02 17:25:27 · 79 阅读 · 0 评论 -
nutch 1.2 增量爬取url 完成 recrawl.sh 编写
# runbot script to run the Nutch bot for crawling and re-crawling. # Usage: bin/runbot [safe] # If executed in 'safe' mode, it doesn't delete the temporary # directories generated dur...原创 2011-01-10 21:42:36 · 117 阅读 · 0 评论 -
Nutch内容过滤的实现[转]
public class ContentFilter implements IndexingFilter { private Configuration conf; public ContentFilter() { } /*** * 过滤包含过滤词的网页,如果包含过滤词,则返回null */ public Nut...原创 2011-01-16 11:51:26 · 105 阅读 · 0 评论 -
Nutch1.2增加插件例子[转]
今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下: http://wiki.apache.org/nutch/WritingPluginExample-0.9 这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上 view plaincopy to clipboardprint?...原创 2010-11-09 16:27:30 · 94 阅读 · 0 评论 -
Nutch中metadata的分析
作为Nutch中的一个非常重要的数据结构,metadata是一个内容丰富的容器,这里面存储了很多值,同时metadata也是一个信息集合的约束,如果要使用metadata,那它里面的所有声明的静态字符串字段,都是约定的一些固定字段,特别是在操作相关信息的时候,metadata的命名是有特殊含义的. 其实从MetaData的类结构中,我们会找到相关的原因. 首先,MetaData实现了六...原创 2010-11-09 16:28:25 · 79 阅读 · 0 评论