2017年07月_柱子89

07月 06月 05月 04月 03月 02月 01月

转载利用 Hadoop FileSystem listStatus 遍历文件目录实现HDFS操作

Hadoop 版本 2.7.0利用 hadoop FileSystem listStatus 遍历文件目录实现HDFS操作package com.feng.test.hdfs.filesystem;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.

2017-07-19 15:40:58 6558 1

转载自定义数据类型写入SequenceFile并读出

开头对这边博客的内容做个概述，首先是定义了一个DoubleArrayWritable的类，用于存放矩阵的列向量，然后将其作为value写入SequenceFile中，key就是对应的矩阵的列号，最后(key,value)从SequenceFile中读出，与另一矩阵做乘法。完全通过IDEA在本地调试程序，并未提交集群。一般来说是将hadoop-core-1.2.1.jar和lib目录下的common

2017-07-19 15:35:45 909

转载将本地文件读成sequenceFile文件，处理海量小文件的一种方式

个人观点：当处理海量小文件时，先将小文件进行sequenceFile操作或者类似操作处理，然后再上传到HDFS系统进行下一步的处理。（如有其它建议，欢迎留言）一、直接上传本地栅格数据将导致的问题根据栅格数据的特点，每层的图片个数都为上层数量的四倍。在第20层时，仅仅第20层的图片的数量达到了“2199023255552”张（世界地图在第一层被切成了两张

2017-07-19 15:31:28 3570

转载 Nutch教程——准备篇 by 逼格DATA

实在是看不下去Nutch官方的坑爹教程了，总结一套看完能懂的Nutch教程，持续更新中。开发环境和基础：学习Nutch，必须满足以下几个条件，缺一不可：1）Linux环境，实在是没办法就在Windows上装linux虚拟机。2）熟悉Java。3）有Hadoop基础，能够编写hadoop下map reduce程序。4）能够看懂Linux Shell。下

2017-07-14 10:27:45 754

转载读取nutch爬取内容方法

读取nutch内容有如下两种方法：1 通过Nutch api SegmentReader读取。 public Content readSegment(String segPath,String url){ Text key= new Text(url); Path

2017-07-14 10:04:44 709

转载 Nutch教程——导入Nutch工程，执行完整爬取 by 逼格DATA

在使用本教程之前，需要满足条件：1）有一台Linux或linux虚拟机2）安装JDK（推荐1.7）3）安装Apache Ant下载Nutch源码：推荐使用Nutch 1.9,官方下载地址：http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip安装IDE：推荐使用Intell

2017-07-14 10:00:19 489

数据结构中图的拓扑排序

数据结构中图的拓扑排序，采用邻接矩阵，没有采用栈的操作

2011-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 利用 Hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作

转载 自定义数据类型写入SequenceFile并读出

转载 将本地文件读成sequenceFile文件，处理海量小文件的一种方式