nutch
lykke2012
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
nutch1.3 +hadoop 分布式部署(亲测)
nutch1.3 +hadoop 分布式部署(亲测)1.确保hadoop正常启动2.下载nutch1.3 安装包 解压到指定路径3.抓取 nutch1.3 有两个conf 一个在NUTCH_HOME/conf ,另一个在rumtime/local/conf runtime/local/conf 为 local(本地抓取的配置文件所用) NU...2011-08-22 16:46:43 · 177 阅读 · 0 评论 -
Nutch: 读取 nutch抓取内容
package org.apache.nutch;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;import org.apa...2011-09-02 13:50:23 · 112 阅读 · 0 评论 -
nutch1.3 command
抓取 bin/nutch crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file>.log steps in 1.读取urls目录下的站点添加到crawldb里 bin/nutch2011-09-02 17:15:31 · 86 阅读 · 0 评论 -
nutch插件编写
说说NUTCH插件AntluceneXMLApacheSpring 每一个基本的非范围搜索都可以由NUTCH来实现,但当我们希望它可以实现范围搜索的时候,我们就需要自己实现插件来完成这个功能。 1)我们查看插件的组织目录,发现NUTCH把很多功能都作为插件来进行插入: 2)我们可以看到conf文件夹内的nutch-default.xml文件,打开它,我们可以看到...原创 2011-12-12 17:25:38 · 102 阅读 · 0 评论 -
nutch 1.3 评分机制 opic 详解
Nutch 1.3 学习笔记 11-1 页面评分机制 OPIC--------------------------------------1. Nutch 1.3 的页面评分机制 Nutch1.3目前默认还是使用OPIC作为其网页分数算法,但其之后,已经引入了PageRank-like算法,以弥补OPIC算法的不足,目前OPIC算法还是作为Nutch中ScoreFilter扩展...2011-12-22 09:17:10 · 349 阅读 · 0 评论 -
Stopping at depth=1 - no more URLs to fetch.
Hadoop集群时间不统一导致Nutch无法正常运行 抓取domain的时候 nutch 可以正确的构建fecthlist,但是只能抓取主域名一个url,还不报错,于是也研究下了代码,看到网上也有人评论,那我就不在自己写了m感觉这位仁兄总结的很好,有一点需要注意的就是,dns 设置的不对也有可能发生这样 的情况转自:http://liuskysun.blog.163.com/blog...2011-12-23 12:33:21 · 224 阅读 · 0 评论 -
倒排索引的简单实现
首先看一个例子: 假设有3篇文章,file1, file2, file3,文件内容如下: file1 (单词1,单词2,单词3,单词4....)file2 (单词a,单词b,单词c,单词d....)file3 (单词1,单词a,单词3,单词d....) 那么建立的倒排索引就是这个样子: 单词1 (file1,file3)...2012-01-05 16:24:56 · 230 阅读 · 0 评论
分享