
Hadoop
Demon_gu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop2.7.4集群搭建
HDFS:分布式文件系统 MAPREDUCE:分布式运算程序开发框架 HIVE:基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作 HBASE:基于HADOOP的分布式海量数据库 ZOOKEEPER:分布式协调服务基础组件 Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库 Oozie:工作流调度框架 Sqoop:数据导入导出...原创 2018-11-13 20:58:16 · 1179 阅读 · 0 评论 -
配置windows平台下的hadoop出现的问题
问题: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解决方法: 1、在windows系统中配置HADOOP_HOME指向...原创 2018-11-14 19:25:06 · 376 阅读 · 0 评论 -
Hadoop的MapReduce使用
一、MapReduce框架结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、MapTask:负责map阶段的整个数据处理流程 3、ReduceTask:负责reduce阶段的整个数据处理流程 二、MapReduce 编程规范及示例编写 2.1 编程规范 1、写一个类(MyMapper)...原创 2018-11-17 22:40:58 · 5129 阅读 · 0 评论 -
Hadoop的Shell脚本命令
1、Shell 常用命令介绍 1.1 -ls 使用方法 hadoop fs -ls [-R] <args> 功能:显示文件、目录信息。 示例:hadoop fs -ls /user/hadoop/file1 1.2-mkdir 使用方法 hadoop fs -mkdir [-p] <paths> 功能:在hdfs上创建目录,-p表示会创建路径中的各级父目...原创 2018-11-14 15:51:05 · 1609 阅读 · 0 评论 -
使用spark streaming使用snappy压缩保存数据到HDFS中
工作中需要将从Kafka中的数据保存到HDFS中去,并且需要使用snappy压缩 话不多说,直接上代码 /** * 自定义多目录写与追加写,采用snappy压缩 * @author demon * @version 2019/05/05 */ class AppendTextOutputFormat extends TextOutputFormat[Any, Any] { ...原创 2019-05-06 10:03:34 · 2107 阅读 · 3 评论