hadoop
文章平均质量分 65
A__loser
为人应当锐意进取,不为往事所羁
展开
-
使用hadoop下载数据时出现空指针异常
在使用java操作hadoop时,上传文件没有问题。但是当下载数据的时候就抛出了一个空指针异常。java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:原创 2017-11-29 13:27:15 · 1762 阅读 · 0 评论 -
hadoop中datanode不被namenode识别的问题
namenode在format初始化的时候会形成两个标识: blockPoolId: clusterId: 新的datanode加入时,会获取这两个标识作为自己工作目录中的标识 一旦namenode重新format后,namenode的身份标识已变,而datanode如果依然 持有原来的id,就不会被namenode识别 解决方法 先关闭datanode和namenode,然后删除da原创 2017-11-29 17:15:25 · 1351 阅读 · 1 评论 -
hadoop--hdfs入门讲解
HDFS基本概念篇HDFS前言设计思想: 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析:在大数据系统中的运用: 为各类分布式运算框架提供数据存储服务。重点概念:文件切块,副本存放,元数据HDFS概念和特性重要特性:采用分块存储HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过目录来访问文件。目录结构及文件分块信息(元原创 2017-12-05 21:00:10 · 482 阅读 · 0 评论 -
hadoop-mapreduce原理篇
MAPREDUCE原理篇mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。分为三块:MRAppMaster(mapreduce application master)/MapTask/Reduce TaskMAPR原创 2017-12-08 21:26:20 · 339 阅读 · 0 评论 -
mapreduce实践篇
mapreduce实践篇MAPREDUCE实例编写及编码规范编程规范用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交 运行mr程序的客户端)Mapper的输入数据是KV对的形式(KV类型可以自定义)Mapper的输出数据是KV对的形式(KV的类型可自定义)Mapper中的业务逻辑写在map()方法中map()方法(maptask进程)对每一个一个简单的Mapre原创 2017-12-20 18:12:51 · 688 阅读 · 0 评论 -
Flume
FlumeFlume介绍概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多的外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊的场景也具有良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景原创 2017-12-20 21:42:09 · 364 阅读 · 0 评论 -
HIVE详解
HIVE详解HIVE基本概念HIVE简介什么是hive?hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题: 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么使用HIve 操作接口采用类SQL语法,提供快速开发的能力 避原创 2017-12-19 13:28:01 · 1660 阅读 · 0 评论