Nutch1.7学习使用一些错误记录--持续记录

原创 2013年12月05日 16:55:25

该记录涉及到的系统为 CentOS 6.4


网站被skipped,提示Content of size 111534 was truncated to 63473

用tcpdump或者wireshark抓包发现,该网站的页面内容采用truncate的方式分段返回,而nutch的默认设置是不处理这种方式的

在nutch-site.xml加入配置

<property>
    <name>parser.skip.truncated</name>
    <value>false</value>
  </property>


nutch爬取中文网页 readseg 命令dump出来的结果部分乱码或者在solr看到部分乱码解决方案

部分网页字符集编码没有设置

在htmlparse进行解析时,当找不到页面默认字符编码时,则设置编码为windows-1521 ,所以解析中文页面时,就乱码。

解决办法: 我们主要解析英文和中文网站,采用了折中的方法,更改默认解析字符集为:gb2312(或UTF-8)

在配置文件nutch-site.xml文件中增加如下属性:

<property>
  <name>parser.character.encoding.default</name>
  <value>gb2312</value>
  <description>The character encoding to fall back to when no other information
  is available</description>
</property>


执行爬取操作时,报如下错误:(我的主机名叫Nutch)

Exception in thread "main" java.net.UnknownHostException: Nutch: Nutch
    at java.net.InetAddress.getLocalHost(InetAddress.java:1402)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:960)

解决方法,修改/etc/hosts 文件,改为如下所示:

127.0.0.1   Nutch    localhost.localdomain
::1                Nutch    localhost.localdomain


相关文章推荐

Nutch1.7学习笔记1:基本环境搭建及使用

说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7...

Nutch1.7学习笔记3:Injector源代码分析

Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 n...

Nutch1.7学习笔记7:Robots协议处理流程

说明:通常来说,网络爬虫应该遵循网站所描述的robots协议。因此,任何网络爬虫都有关于robots协议部分的处理。 分析入口:Robot相关处理的入口位于Fetcher.java的L676,如...

Nutch1.7学习笔记6:ParseSegment源代码分析

Nutch1.7学习笔记6:ParseSegment源代码分析 作者:雨水,时间:2013-11-17 博客地址:http://blog.csdn.net/gobitan ParseSegment分析...
  • gobitan
  • gobitan
  • 2013年11月30日 10:38
  • 3612

Nutch1.7学习笔记3:Injector源代码分析

Nutch1.7学习笔记3:Injector源代码分析 作者:雨水,时间:2013-11-13 博客地址:http://blog.csdn.net/gobitan Injector的主要功能 Inje...
  • gobitan
  • gobitan
  • 2013年11月30日 09:28
  • 3065

Nutch1.7学习笔记2:基本工作流程分析

Nutch1.7学习笔记2:基本工作流程分析 作者:雨水,时间:2013-11-13博客地址:http://blog.csdn.net/gobitan 说明:本文的工作流程分析基于1.x的最新版Nut...
  • gobitan
  • gobitan
  • 2013年11月30日 09:25
  • 3188

Nutch1.7学习笔记5:Fetcher源代码分析

Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueu...

Swift学习记录 - Alamofire 4.0.1网络库基本使用(持续更新...)

目前为止 , Alamofire网络库已经更新到4.0.1 , swift也逐渐趋于稳定 , 最近有空都是在学习swift方面的东西 . 这里主要写一些项目中 , 比较实用的网络请求 , 比较少用的 ...
  • coderMy
  • coderMy
  • 2016年11月17日 17:07
  • 5412

nutch 1.7 导入 eclipse 其他版本亦可参考。

前提: jdk   eclipse  等等安装就略过了。    下载  apache-nutch-1.7-src.zip 包  和 apache-nutch-1.7-bin.zip 包 一、 ...

CentOS环境安装Solr4.7.0+Apache Nutch 1.7 + IK2012中文分词 笔记

系统环境基于Java,本文不做讲解 Solr4.7下载地址:http://archive.apache.org/dist/lucene/solr/4.7.0/ Nutch1.7下载地址:http://...
  • nobmr
  • nobmr
  • 2016年05月19日 15:40
  • 604
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Nutch1.7学习使用一些错误记录--持续记录
举报原因:
原因补充:

(最多只允许输入30个字)