Nutch
文章平均质量分 73
kandy_ye
关注爬虫。
展开
-
Nutch 介绍以及在Ubuntu上的安装
一、Nutch介绍1. 什么是Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己 的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支原创 2015-08-12 21:32:40 · 3854 阅读 · 0 评论 -
[Nutch]Nutch抓取过程中生成的目录内容分析
在上一篇博文中有和大家介绍了nutch爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?其实nutch在抓取的过程中会产生很多的目录,会把抓到的内容分别保存到不同的目录之中。那么,这些目录的结构的什么样的?每个目录里面又保存了哪些内容呢?本篇博文将为你揭晓。原创 2016-04-24 13:48:12 · 2549 阅读 · 0 评论 -
[Nutch]查看Nutch生成目录下的具体内容
在上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。原创 2016-04-24 15:44:20 · 2244 阅读 · 0 评论 -
[Nutch]Hadoop单机伪分布模式的配置
在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备。原创 2016-05-22 10:17:32 · 3638 阅读 · 0 评论 -
[Nutch]Hadoop单机伪分布式模式的使用(deploy)
在上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明。原创 2016-05-22 10:53:57 · 4086 阅读 · 0 评论 -
[Nutch]Hadoop动态增加DataNode节点和TaskTracker节点
在之前的博文有对分布式模式做负载均衡设置,那么这次我们就来说明一下如果动态增加DataNode结点和TaskTracker结点。1. 在host1上增加host4使用如下命令:vi conf/slaves如下: 2. 将host1上的公钥加入到host4中使用如下命令:ssh-copy-id -i .ssh/id_rsa.pub hadoop@host4如下: 将host1的公钥添加到h原创 2016-06-09 20:48:19 · 2982 阅读 · 0 评论 -
[Nutch]限制Hadoop结点连接
在上一篇博文我们有说明如何动态增加一个DataNode结点和TaskTracker结点,本次就来说明一下如何限制hadoop结点的连接。1. 配置hdfs-site.xml文件新增如下内容:<property> <name>dfs.hosts</name> <value>/home/hadoop/workspace/hadoop-1.2.1/conf/include</value></pr原创 2016-06-09 21:27:40 · 3283 阅读 · 0 评论 -
[Nutch]Hadoop动态删除DataNode节点和TaskTracker节点
在之前的博文有说明动态添加一个结点,本次就说明如何动态删除一个结点。在上一篇博文有讲解如何限制一个结点的连接,要动态删除一个结点,可以在这个基础之上进行配置。1. 在host1上配置dfs.hosts.exclude在dfs.hosts.exclude指定的文件中添加host4: 再执行如下命令:hadoop dfsadmin -refreshNodes然后用如下命令进行查看:hadoop原创 2016-06-09 22:15:01 · 2958 阅读 · 0 评论 -
[Nutch]问题解决:Exception in thread "main" java.io.IOException: Job failed
问题描述在运行Nutch的时候会出现如下异常: Exception in thread “main” java.io.IOException: Job failed!原创 2016-06-16 16:45:06 · 3972 阅读 · 0 评论 -
[Nutch]问题解决:Exception in thread "main" java.io.IOException: Failed to set permissions of path
问题描述在运行Nutch的时候可能会遇到如下问题: Exception in thread “main” java.io.IOException:Failed to set permissions of path:\tmp\hadoop-Kandy Ye\mapred\staging\Kandy Ye1703726604.staging to 0700原创 2016-06-16 16:38:40 · 1599 阅读 · 1 评论 -
[Nutch]编译hadoop出现object[]无法转换为K[]问题解决
在使用JDK8编译hadoop 1.2.1的时候会出现object[]无法转换为K[]的问题原创 2016-06-16 16:56:31 · 2625 阅读 · 0 评论 -
[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境
1、环境准备1.1 软件操作系统:Windows 10专业版 ANT版本:apache-ant-1.9.7-bin.zip JDK版本:jdk-8u65-windows-x64.exe Solr版本:solr-4.9.1.zip Nutch版本:apache-nutch-1.6-bin.tar.gz Tomcat版本:apache-tomcat-9.0.0.M8-windows-x64.z原创 2016-06-18 18:24:31 · 4160 阅读 · 1 评论 -
[Nutch]Nutch抓取过程分析
Nutch爬虫抓取数据的整个过程。原创 2016-04-24 12:45:55 · 1884 阅读 · 0 评论 -
[Nutch]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1原创 2016-05-08 13:04:34 · 1642 阅读 · 0 评论 -
[Nutch]Solr配置自定义的中文分词器mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解原创 2016-05-07 19:25:25 · 1734 阅读 · 0 评论 -
[Nutch2.3]调用generate的时候出现java.util.NoSuchElementException异常
遇到如下异常,目前没有找到解决方法,先做记录,后续再来寻找解决方法:java.util.NoSuchElementException异常原创 2016-02-22 22:33:45 · 1823 阅读 · 0 评论 -
[Nutch]抓取周期单步执行过程详解
nutch爬虫抓取周期中单步执行过程详解。原创 2016-04-30 16:24:26 · 3221 阅读 · 1 评论 -
[Nutch]Ubuntu配置Java环境
在Ubuntu上安装Java原创 2016-04-03 11:07:10 · 763 阅读 · 0 评论 -
[Nutch]Nutch重要命令使用说明
对nutch抓取周期以外的几个重要的命令的使用进行详细的说明。原创 2016-05-02 13:58:47 · 3414 阅读 · 0 评论 -
[Nutch]Apache Solr的安装和配置
Apache Solr的安装和配置方法。原创 2016-05-02 17:18:49 · 3423 阅读 · 0 评论 -
[Nutch]Solr命令的使用
solrindex建立索引并提交到Solr服务器。 参数: 参数说明:solr url:solr的访问url,如:http://192.168.238.128:8983/solr;crawldb:crawldb的路径;linkdb:linkdb路径;dir:segments的路径。执行命令:bin/nutch solrindex http://192.168.238.128:898原创 2016-05-02 19:17:12 · 2461 阅读 · 0 评论 -
[Nutch]Hadoop多机完全分布式模式主机配置
在上一篇博文中我们有介绍hadoop的单机伪分布式模式的使用,那么现在我们就来看下多机完全分布式模式。1. 多主机配置1.1 对多台机器进行主机名设置用root账户使用如下命令:vim /etc/hostname分别对三台机器设置为:host1、host2、host3 1.2 配置主机映射用root账户使用如下命令:vim /etc/hosts分别配置三台机器: host1: host2:原创 2016-05-28 14:28:15 · 3204 阅读 · 3 评论 -
[Nutch]Hadoop多机完全分布式模式hadoop配置
1. 下载hadoop使用如下命令:wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz使用如下命令解压:tar -zxvf hadoop-1.2.1.tar.gz2. 配置hadoop将hadoop的bin目录加入到配置文件中,使用如下命令:vim .bashrc添加如下行:expor原创 2016-05-28 15:06:56 · 3416 阅读 · 5 评论 -
[Nutch]hadoop启用回收站
目前hadoop在默认情况下是没有启用回收站的,如果文件被删除是没有办法恢复的,所以我们需求启用回收站,以便于恢复已经删除的文件。1. 用hadoop创建一个文件夹使用如下的命令在hadoop的文件系统里面创建一个文件夹urls:hadoop fs -mkdir urls用如下命令进行查看:hadoop fs -ls如下: 在web里面也可以查看到: 2. 删掉文件使用如下命令进行删除:had原创 2016-05-28 17:12:24 · 2371 阅读 · 0 评论 -
[Nutch]hadoop完全分布式模式负载设置
在上一篇博文有介绍hadoop的完全分布式模式的配置,但是没有对负载进行均衡设置,本篇博文就来说明将NameNode,SecondaryNameNode,JobTracker分别指定到三台主机上。1. 制定SecondaryNameNode为host21.1 配置masters使用如下命令:vim conf/masters将之前的host1修改为host2,然后使用如下的命令复制到host2和ho原创 2016-05-28 16:30:44 · 1565 阅读 · 0 评论 -
[Nutch]使用LUKE查看Solr的索引文件内容
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。原创 2016-05-07 17:21:09 · 3092 阅读 · 0 评论 -
[Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
上一篇博文介绍了在Windows 10系统下用Cygwin搭建Nutch开发环境,本文将介绍在Ubuntu下Nutch2.3的开发环境的搭建。1. 需要的软件及其版本Ubuntu 15.04hadoop 1.2.1 hbase 0.94.27 nutch 2.3 solr 4.9.12. 系统环境准备2.1 安装Ubuntu操作系统基本要求,网上也有很多,自行安装,有问题可原创 2016-06-19 12:39:54 · 4657 阅读 · 0 评论