自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

转载 利用 Hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作

Hadoop 版本 2.7.0利用 hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作package com.feng.test.hdfs.filesystem;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.

2017-07-19 15:40:58 6558 1

转载 自定义数据类型写入SequenceFile并读出

开头对这边博客的内容做个概述,首先是定义了一个DoubleArrayWritable的类,用于存放矩阵的列向量,然后将其作为value写入SequenceFile中,key就是对应的矩阵的列号,最后(key,value)从SequenceFile中读出,与另一矩阵做乘法。完全通过IDEA在本地调试程序,并未提交集群。一般来说是将hadoop-core-1.2.1.jar和lib目录下的common

2017-07-19 15:35:45 909

转载 将本地文件读成sequenceFile文件,处理海量小文件的一种方式

个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言) 一、直接上传本地栅格数据将导致的问题                根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张

2017-07-19 15:31:28 3570

转载 Nutch教程——准备篇 by 逼格DATA

实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。开发环境和基础:学习Nutch,必须满足以下几个条件,缺一不可:1)Linux环境,实在是没办法就在Windows上装linux虚拟机。2)熟悉Java。3)有Hadoop基础,能够编写hadoop下map reduce程序。4)能够看懂Linux Shell。下

2017-07-14 10:27:45 754

转载 读取nutch爬取内容方法

读取nutch内容有如下两种方法:1 通过Nutch api SegmentReader读取。         public Content readSegment(String segPath,String url){                            Text key= new Text(url);              Path

2017-07-14 10:04:44 709

转载 Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA

在使用本教程之前,需要满足条件:1)有一台Linux或linux虚拟机2)安装JDK(推荐1.7)3)安装Apache Ant下载Nutch源码:推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip安装IDE:推荐使用Intell

2017-07-14 10:00:19 489

数据结构中图的拓扑排序

数据结构中图的拓扑排序,采用邻接矩阵,没有采用栈的操作

2011-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除