自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

筑梦者

努力ing

  • 博客(7)
  • 资源 (2)
  • 收藏
  • 关注

原创 liunx安装JDK

1. 将jdk上传到liunx上2. 对压缩包进行解压--我一般解压到/usr/local下新建一个java目录 Mkdir /usr/local/javatar -zxvf jdk-7u79-linux-i586.tar.gz  -C /usr/local/java/ 3. 编辑path的配置文件vim  /etc/profile 在文件的末尾加上如下内容 

2015-12-18 23:14:57 483

原创 hadoop的Linux环境准备

l 安装VMWare软件自行百度l 在VMWare软件下linux系统自行百度  l 配置VMWare虚拟软件网卡,保证Windows机器能和虚拟机linux正常通信 使用NAT 模式(可以上网)l 修改主机名vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop01   ###l 设置

2015-12-16 23:46:25 519

原创 hadoop入门介绍

Hadoop概述Hadoop是一个由Apache基金会的发布的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 1.Hadoop简介Ø hadoop是什么?What Is Apache Hadoop?The Apache™ Hadoop® project develops open-source so

2015-12-14 23:52:32 545

原创 nutch其他命令

1、 大merge和3大read命令阐释--用来合并内容进行空间压缩bin/nutch  |  grep mergebin/nutch  |  grep readbin/nutch  mergesegs  data/segments_all  -dir  data/segments2、 反转链接 --生成linkdbbin/nutch  invertlinks  data/li

2015-12-13 22:43:05 467

原创 nutch爬取内容分析和爬取流程命令实现

1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?  crawl             one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD)  readdb            read / dump crawl db  mergedb           merge

2015-12-13 22:38:30 1943

原创 nutch的简单爬取

上篇博客介绍了一下nutch的下载和构建,这篇主要分享一下nutch的简单爬取,和爬取流程在主目录下运行bin/nutch 会看到   crawl             one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD)  readdb            read / dump craw

2015-12-13 22:21:39 1446

原创 Nutch下载及构建

最近一段时间利用空余时间学习了一下关于nutch的简单的入门知识.现在看到单机版刚刚结束的地方,再研究下去的话就要涉及到hadoop的相关知识.这篇博客主要分享一下nutch单机版的一点入门知识.本篇主要说的是nutch1.6版本的.在liunx系统上运行,先从svn中下载下来如果没有安装svn 可以使用 yum安装 命令如下:yum install subversionyum相关

2015-12-13 22:01:43 1625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除