2015年12月_当以乐

原创 liunx安装JDK

1. 将jdk上传到liunx上2. 对压缩包进行解压--我一般解压到/usr/local下新建一个java目录 Mkdir /usr/local/javatar -zxvf jdk-7u79-linux-i586.tar.gz -C /usr/local/java/ 3. 编辑path的配置文件vim /etc/profile 在文件的末尾加上如下内容

2015-12-18 23:14:57 483

原创 hadoop的Linux环境准备

l 安装VMWare软件自行百度l 在VMWare软件下linux系统自行百度 l 配置VMWare虚拟软件网卡，保证Windows机器能和虚拟机linux正常通信使用NAT 模式(可以上网)l 修改主机名vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop01 ###l 设置

2015-12-16 23:46:25 519

原创 hadoop入门介绍

Hadoop概述Hadoop是一个由Apache基金会的发布的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 1.Hadoop简介Ø hadoop是什么？What Is Apache Hadoop?The Apache™ Hadoop® project develops open-source so

2015-12-14 23:52:32 545

原创 nutch其他命令

1、大merge和3大read命令阐释--用来合并内容进行空间压缩bin/nutch | grep mergebin/nutch | grep readbin/nutch mergesegs data/segments_all -dir data/segments2、反转链接 --生成linkdbbin/nutch invertlinks data/li

2015-12-13 22:43:05 467

原创 nutch爬取内容分析和爬取流程命令实现

1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？ crawl one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD) readdb read / dump crawl db mergedb merge

2015-12-13 22:38:30 1943

原创 nutch的简单爬取

上篇博客介绍了一下nutch的下载和构建,这篇主要分享一下nutch的简单爬取,和爬取流程在主目录下运行bin/nutch 会看到 crawl one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD) readdb read / dump craw

2015-12-13 22:21:39 1446

原创 Nutch下载及构建

最近一段时间利用空余时间学习了一下关于nutch的简单的入门知识.现在看到单机版刚刚结束的地方,再研究下去的话就要涉及到hadoop的相关知识.这篇博客主要分享一下nutch单机版的一点入门知识.本篇主要说的是nutch1.6版本的.在liunx系统上运行,先从svn中下载下来如果没有安装svn 可以使用 yum安装命令如下:yum install subversionyum相关

2015-12-13 22:01:43 1625

筑梦者