![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop学习笔记
warm-
学而时习之:)
展开
-
HDFS操作
在map阶段获取分区中文件的文件名: InputSplit inputSplit = context.getInputSplit(); //获取分区 String fileName = ((FileSplit) inputSplit).getPath().getName(); //获取文件名 String fileName = ((FileSplit) inputSpli...原创 2018-11-13 15:02:28 · 120 阅读 · 0 评论 -
MapReduce单元测试不通过
前几天用mrunit进行单元测试,一直报错:java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.TaskInputOutputContext, but class was expected 在网上查了一下,说这个错误是导入的包有问题,废了老半天劲,原来是mrunit包导入的不对。开...原创 2018-07-26 11:31:01 · 187 阅读 · 0 评论 -
KNN在MR和Spark下实现的IO操作比较
MapReduce中KNN运行过程I/O操作分析: 实现流程: KNN在MapReduce中的实现,认为训练集大小远大于测试集大小。所以测试集缓存在内存中。 Map任务输入是一个训练集文件的分片(子集),测试集中的每一个样例与训练集分片中的所有样例计算距离,输出<测试样例, (与训练样例的距离和训练样例的类别)> Combiner阶段根据map的输出得到距测试样例最近的K个训练...原创 2018-08-22 13:55:31 · 338 阅读 · 0 评论 -
HBase学习笔记----通过JAVA 最新API操作HBase
首先环境为: HBase的版本2.0.1,Hadoop版本2.7.1, JDK1.8 由于HBase目前网上介绍的API好多已经过时, 这里使用了最新的API,演示了如何创建表,插入数据,获取数据, 删除表几个功能。 public class HbaseOpreation { /* 旧版API,目前已经deprecated */ @Test pub...原创 2019-05-08 18:33:39 · 298 阅读 · 0 评论 -
HDFS实时上传文件夹中的数据文件
需求: 编写一个脚本,监控一个文件夹,当有文件加入将其上传到HDFS。 步骤: 记录已经上传过的文件 获取文件夹下所有数据文件 判断是否已经上传,如果没有,上传,并记录 python脚本: import os from subprocess import call import argparse parser = argparse.ArgumentParser() parser.add_ar...原创 2019-07-20 23:20:42 · 404 阅读 · 0 评论