nutch
码上笔记
不断积累、总结、反思,用代码改变世界
展开
-
Windows环境下MyEclipse+Nutch2.2.1+Mysql搭建
一、环境准备首先肯定是配置开发环境,这里暂时不作详细描述。需要的环境有jdk1.7,MyEclipse,SVN,ant,以及MyEclipse下的三个插件subclipse 、IvyDe和m2e,下载地址http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite以及原创 2017-10-10 15:47:14 · 378 阅读 · 0 评论 -
Nutch2.3.1使用ant eclipse 编译源代码报错ValidatorException: PKIX path building failed: sun.security.provider.
BUILD FAILED--------------sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to原创 2017-11-14 15:25:14 · 3318 阅读 · 0 评论 -
Nutch二次开发介绍
1.Nutch二次开发中重点环节介绍1.1 信息源选择及规范制定 对信息源的选择可以反映出搜索引擎的业务范围: 企业局域网搜索引擎:选择某一个网站或者网站群; 综合型的搜索引擎:选择整个网络; 垂直搜索引擎:选择某一主题类网站或网页; 博客搜索引擎:选择的是博客; 文件搜索引擎:选择的是某种格式的文档。 二次开发前,明确需求,分析主要的目标网原创 2017-10-26 15:22:37 · 862 阅读 · 0 评论 -
Nutch2.2.1抓取错误——java.sql.BatchUpdateException: Incorrect string value: '\xF2\xA3\xAC\xB7\xEF\xBF.
Nutch抓取数据时报错如下[plain] view plain copy2016-05-13 19:31:55,415 WARN mapred.LocalJobRunner - job_local1852033656_0004 java.lang.Exception: java.io.IOException: java.sql.BatchUp原创 2017-10-25 16:04:16 · 641 阅读 · 0 评论 -
Nutch2.2.1的配置(使用MySQL作为数据存储)
首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包这里假定nutch的根目录为:${APACHE_NUTCH_HOME}配置${APACHE_NUTCH_HOME}/ivy/ivy.xml,确保Nutch使用MySQL作为数据存储将[html] view plain copy原创 2017-10-25 15:17:46 · 520 阅读 · 0 评论 -
Nutch2.2.1之MySQL数据库的配置和建表webpage语句
输入以下命令打开编辑界面[plain] view plain copysudo vi /etc/mysql/my.cnf 在[mysqld]下加入以下配置:[plain] view plain copyinnodb_file_format=barracuda原创 2017-10-25 15:15:32 · 348 阅读 · 0 评论 -
Nutch2 WebPage 字段解释
转载来源:http://blog.csdn.net/itufo/article/details/20535539版本: Nutch2.2.1id主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息转载 2017-10-24 09:34:44 · 257 阅读 · 0 评论 -
nutch2.2.1 URLNormalizers 详解
Java代码 org.apache.nutch.net.URLNormalizers url过滤封装类,过滤器有3个实现类分别是: Java代码 //格式化url将url字符小写转换一次,Perl5正则解析URL FILE。 org.apache.nutch.net.urlnormalizer.basic.Ba原创 2017-10-24 09:32:01 · 303 阅读 · 0 评论 -
Nutch+MySQL集成笔记
MySQL安装不需要什么配置,就是next最后记住弹出的窗口里的密码就行。下载地址: http://dev.mysql.com/downloads/mysql/Nutch的安装与配置以及使用1、Nutch-2.3.1下载: http://nutch.apache.org/downloads.html 下载,然后解压至本地安装目录,如本地根目录为${NUTCH_HOM转载 2017-10-21 21:18:53 · 1045 阅读 · 1 评论 -
在 ant build时“找不到符号”解决方法(待验证)
今天在对nutch2.x进行测试。第一次,按照官方文档Running Nutch in Eclipse进行ant eclipse,最后build成功。而后,修改了些pom.xml中的版本号,再进行ant eclipse,出现了失败,于是对pom.xml进行了还原。再次ant eclipse,出现了很多“找不到符号”,初步估计是存在多个版本的jar造成的。这个问题有一个终极解原创 2017-10-21 01:00:41 · 3814 阅读 · 0 评论 -
nutch2.x在eclipse+windows环境下运行遇到的一些问题的解决方案
1、问题 permission /tmp/hadoop....解决方法:下载hadoop源码包,修改org.apache.hadoop.fs.FileUtil.java文件中方法checkReturnValue内容。将异常改为log。用意:不在检测文件系统路径问题 private static void checkReturnValue(boolean rv, File p,原创 2017-10-20 22:51:47 · 321 阅读 · 0 评论 -
Nutch Crawler抓取数据并存储到MySQL
Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照 Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完成了指定网站数据的抓取。首先,需要准备好Nutch转载 2017-10-20 08:47:09 · 410 阅读 · 0 评论 -
Tomcat与Solr4.10整合(Windwow环境)
1、下载tomcat http://tomcat.apache.org/2、下载solr http://lucene.apache.org/solr/3、解压tomcat与solr4、拷贝:solr-4.10.0\example\webapps\solr.war 到 apache-tomcat-8.0.12\webapps\目录中转载 2017-11-16 20:48:39 · 218 阅读 · 0 评论