使用NUTCH进行单站点的爬取与检索测试

最新推荐文章于 2020-04-22 16:30:57 发布

weixin_33973609

最新推荐文章于 2020-04-22 16:30:57 发布

阅读量82

点赞数

文章标签： java

原文链接：http://www.cnblogs.com/afreethinker/p/3159587.html

版权

单站点的爬取与检索测试

1, 创建urls文件夹,在文件夹下面创建seed.txt
文件, 在seed.txt文件中输入要爬取的站点例如: www.osu.edu
mkdir -p urls

cd urls

touch seed.txt to create a text file seed.txt under urls/ with the following content (one URL per line for each site you want Nutchto crawl).

2,修改conf/crawl-urlfilter.txt

将MY.DOMAIN.NAME替换为osu.edu

原来为:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

现在为:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*osu.edu/

3, 开始爬取

bin/nutch crawl urls -dir crawldemo -depth 2

4, 配置tomcat,并重新启动,重启的过程不能忘记.

gsli@ubuntu:~/Downloads/apache-tomcat-7.0.10/webapps/nutch-1.2/WEB-INF/classes$
cat nutch-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>searcher.dir</name>

<value>/home/gsli/Downloads/nutch-1.2/crawldemo</value>

</property>

</configuration>

5, 在nutch的搜索页面进行检索

需要在完成第四步的配置,然后重启tomcat才可以进行检索

转载于:https://www.cnblogs.com/afreethinker/p/3159587.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33973609

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据存储与处理—安装nutch

weixin_45680007的博客

10-10

262

Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。链接: https://pan.baidu.com/s/1j4nwwTne1AeAfa7x5zpEZQ 提取码: qdpj 第一步：安装Java JDK 首先查看系统是否已经安装了其他版本的JDK，如果有，先要把其他版本的JDK卸载。输入：# rpm-qa|grep gcj...

搜索引擎算法研究专题一：基于页面分块的搜索引擎排序算法改进

wangzhiqing3的专栏

04-10

935

一、传统搜索引擎排序算法概述　　1. 1 搜索引擎排序算法概述　　搜索引擎查询的结果是按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. P

参与评论您还未登录，请先登录后发表或查看评论

基于Nutch的站内搜索引擎搭建（二）

李维

04-18

193

http://www.ahathinking.com/archives/151.html Windows下Nutch的安装配置，参见：基于Nutch的站内搜索引擎搭建（一）本节在上回基础上，对Nutch添加中文分词插件，进行二次开发，同时辅助Nutch分析工具了解Nutch的工作机制，并对其进行一些简单的优化配置。内容如下： ===部件及安装=== ===Nutch添加中文分词...

Nutch1.2二次开发(关于中文分词)

weixin_30814319的博客

02-19

168

http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html 前言：作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料，但内容并不详尽且有错误，于是在此记录个人实战过程，纠正一些文章错误，以详细的过程展现一次简单的二次开发流程，为初学者降低门槛。但不能保证完全没有错误，如有发现希望大家指正。一、开发...

搜索引擎 Nutch

weixin_30321709的博客

02-12

103

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. Nutch为我们提供了这样...

Nutch爬取效率非常重要的一点

tianyangwww的博客

06-09

294

关于nutch爬取的优化有同猿已经说的很清楚了，有兴趣的可以看看下面这个博客。 http://my.oschina.net/junfrank/blog/290404 除此之外我补充本猿在实践过程中遇见的重要的一点，Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现，不论怎么修改配置文件，在fetch阶段还是只启动了两个map，解决此问题结论如下：一、修改Gen...

【信息检索课程设计】sdu新闻网站全站爬取+索引构建+搜索引擎

最新发布

02-22

Web网页信息抽取以山东大学新闻网为起点进行网页的循环爬取，保持爬虫在view.sdu.edu.cn之内（即只爬取这个站点的网页），爬取的网页数量越多越好。索引构建对上一步爬取到的网页进行结构化预处理，包括基于模板...

nutch入门.pdf

03-23

这些步骤是使用Nutch进行网页爬取和搜索服务的前提条件。 Nutch初体验部分涉及爬行企业内部网和爬行全网。这一部分详细介绍了如何配置Nutch以及Tomcat，执行抓取命令，并对结果进行测试。其中，爬行企业内部网涉及...

搜索引擎Nutch 0.7.2 试用笔记

纯月部落

05-12

8040

在Google里面搜索了一些Nutch的资料，还真不多。今天画了两个小时搞了一通，把一些心得纪录下来。我的jdk 是1.5.x ，Tomcat是5.0.x1 下载0.7.2 版本的包：里面已经包含了war文件，所以不需要Ant编译了2 安装Cygwin，这个没什么好说的。3 把Nutch借压缩到D:/nutch4 在D:/nutch下面建立一个文件 urls （没有后缀）

垂直搜索初探--Nutch学习

weixin_34115824的博客

09-19

经过几天努力，Nutch终于比较完美的工作了，我有写了一个批处理文件，能够启动Nutch进行Crawl,看着自己搭建的搜索引擎，感觉就是爽现在有不少做搜索垂直引擎的公司，即使像google,百度也都在做，国内也出现了一些小的公司，如找工作的，搜股票的，搜房的，求医问药的，但感觉做的不是特别好。比如搜简历，从理论上，你只要在网上留过资料，就可以被搜到，比如我找张三，结果中出现的第一个应该为张三的简历...

基于Java的搜索引擎Nutch中文搜索技术研究

吴楚狂生

11-20

3541

基于Java的搜索引擎Nutch中文搜索技术研究宿红毅罗宏臧海峰（北京理工大学计算机科学与工程系，北京 100081）摘要：Nutch是一个优秀的基于Java的开放源码搜索引擎，为了使它能够支持中文搜索，本文在分析了Nutch结构的基础上，采用词表分词技术和前向匹配分词算法对中文信息进行分词，以JavaCC脚本实现上下文相关文法中文分析模块，成功实现了Nutch中文搜索功

网络信息检索（七）搜素引擎体系结构与排序算法

csyifanZhang的博客

04-22

1931

文章目录一、搜索引擎体系结构1：搜索引擎的性质与软件体系结构2：大规模搜索引擎—Google3：早期体系结构--中小型搜索引擎（1）采集数据（2）建立索引（3）提供检索服务（4）数据结构（5）Google检索算法（1）单个检索词的查询排序（2）多个检索词的查询排序（3）扩展性与关键的优化技术4：现代体系结构--超大型搜索引擎二、排序算法-高度保密的部分1：Lucene（1）简介与典型应用（2）得分...

nutch ParserJob Plugin加载流程源码解析

后起秀厚勃发

12-27

114

parserJob入口初始化parserFactory的时候会去读取parse-plugins.xml配置的插件信息重点就是下面这段了。如果mimeType重复定义在parse-plugin.xml,会被覆盖导致只有一个所以相同mimeType，放到一起。配置加载完成。然后看怎么调用插件，回

Nutch搜索引擎的原理介绍

weixin_34336292的博客

03-26

357

2019独角兽企业重金招聘Python工程师标准>>> ...

Nutch 0.8笔记--Google式的搜索引擎实现

花钱的年华

08-09

8069

作者：江南白衣 Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码，另外很多地方作了合理化修正，非常值得升级。1.Nutch 0.8 的安装与运行n

nutch的排名算法OPIC

ninjuli(忆风尘)的专栏

05-21

3383

工作需要扩展nutch爬虫一些功能，在nutch资料甚少的互联网总算在一个角落搜到了nutch类似google的pagerank的算法，叫做Adaptive On-Line Page Importance Computation，简称OPIC，继续搜索到下边这篇文章，感觉对自己理解这个算法方面有入门的帮助，特转贴过来。庄子曾说：“吾生也有涯，而知也无涯，以有涯随无涯，殆已”。当然，我

nutch1.0在linux系统下部署

WitsMakeMen的专栏

05-28

1208

总体上Nutch 可以分为2个部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。实际上搜索程序和抓取程序可以分别位于不同的机器上。网页的抓取主要分为2种：Intranet crawling 和Whole-web crawling。从名字可以很容易明白他们抓取