- 博客(6)
- 资源 (1)
- 收藏
- 关注
转载 利用 Hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作
Hadoop 版本 2.7.0利用 hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作package com.feng.test.hdfs.filesystem;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.
2017-07-19 15:40:58 6558 1
转载 自定义数据类型写入SequenceFile并读出
开头对这边博客的内容做个概述,首先是定义了一个DoubleArrayWritable的类,用于存放矩阵的列向量,然后将其作为value写入SequenceFile中,key就是对应的矩阵的列号,最后(key,value)从SequenceFile中读出,与另一矩阵做乘法。完全通过IDEA在本地调试程序,并未提交集群。一般来说是将hadoop-core-1.2.1.jar和lib目录下的common
2017-07-19 15:35:45 909
转载 将本地文件读成sequenceFile文件,处理海量小文件的一种方式
个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言) 一、直接上传本地栅格数据将导致的问题 根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张
2017-07-19 15:31:28 3570
转载 Nutch教程——准备篇 by 逼格DATA
实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。开发环境和基础:学习Nutch,必须满足以下几个条件,缺一不可:1)Linux环境,实在是没办法就在Windows上装linux虚拟机。2)熟悉Java。3)有Hadoop基础,能够编写hadoop下map reduce程序。4)能够看懂Linux Shell。下
2017-07-14 10:27:45 754
转载 读取nutch爬取内容方法
读取nutch内容有如下两种方法:1 通过Nutch api SegmentReader读取。 public Content readSegment(String segPath,String url){ Text key= new Text(url); Path
2017-07-14 10:04:44 709
转载 Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA
在使用本教程之前,需要满足条件:1)有一台Linux或linux虚拟机2)安装JDK(推荐1.7)3)安装Apache Ant下载Nutch源码:推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip安装IDE:推荐使用Intell
2017-07-14 10:00:19 489
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人