hadoop篇_小虹尘的博客-CSDN博客

hadoop篇

关注

关注数：文章数：25 文章阅读量：29019 文章收藏量：22

作者: 小虹尘

心有凌云志，到处是青山！

展开

Hadoop的RPC通信------>java实现

一、服务端编写（1）RPCServer类 public class RPCServer implements Bizable{ public String sayHi(String name){ return "Hi~"+name; } public static void main(String[] args) throws Excep

原创 2016-11-29 21:44:38 · 356 阅读 · 0 评论
hadoop2.7.3伪分布式搭建之一------>Linux环境的准备

图形界面法虚拟机ip设置 (1) 打开VMware Workstation----> 虚拟机---->设置---->网络适配器---->自定义模式 Vnet8 （2）查询windows ip 进入cmd命令窗口---->输入ipconfig----> 记住以太网适配器 VMware Ne

原创 2016-11-16 23:19:55 · 584 阅读 · 0 评论
hadoop2.7.3伪分布式搭建之三------>Hadoop2.7.3的安装

1. 第一步上传hadoop的安装包hadoop-2.7.3.tar.gz到服务器上去/home/hadoop/2. 第二步配置hadoophadoop-2.7.3的搭建需要修改5个配置文件第一个：hadoop-env.shvim hadoop-env.sh#第27行export JAVA_HOME=/usr/java/jdk1.8

原创 2016-11-17 20:08:40 · 3995 阅读 · 0 评论
HDFS shell常用命令

1.0查看帮助hadoop fs -help 1.1上传hadoop fs -put 例如：hadoop fs -put /home/hadoop/jdk-8u45-linux-x64.tar.gz hdfs://hadoop01:9000/jdk1.2查看文件内容hadoop fs -cat 例如：hadoo

原创 2016-11-20 10:09:38 · 1125 阅读 · 0 评论
hadoop核心------>HDFS原理

一、hdfs体系架构1.NameNode------>管理节点------>hdfs中老大（1）维护着整个文件系统的文件目录树；（2）维护元数据信息；（3）接收用户的操作请求2.DataNode------>提供真实文件数据的存储服务------>hdfs中小弟将文件进行划分并编号，切分成n个B

原创 2016-11-23 22:01:22 · 451 阅读 · 0 评论
Hadoop的RPC通信(二)------>框架封装思想

一、 RPC框架的底层原理封装1.客户端Controller2.服务端Server3.业务接口LoginServiceInterface如图：1.首先controller会根据业务员接口，生成一个客户端socket程序动态代理对象proxy2.controller通过proxy调用业务的方法，例如：proxy.login(username,password)3

原创 2016-12-01 22:03:10 · 354 阅读 · 0 评论
hadoop之zookeeper集群搭建

一、zookeeper简介有一个leader，n个follower 二、作用对hadoop ------>确保集群中只有一个活跃的NameNode... 对HBase ------>确保集群中只有一个HMaster... 三、环境搭建下载地址:http://zookeeper.apache.org/1.上传zk安装包

原创 2016-12-21 21:48:47 · 616 阅读 · 0 评论
hadoop2.7.3集群搭建------>真正的分布式环境

一、集群股规划主机名IP 安装的软件运行的进程hadoop01 192.168.19.132 jdk、hadoop NameNode、DFSZKFailoverController(zkfc)hadoop02 192.168.19.129 jdk、hadoop、zookeeper DataNode、N

原创 2016-12-26 14:01:44 · 2094 阅读 · 0 评论
hadoop之sqoop准备工作------>windows10安装mysql

一、软件安装1.下载地址：http://dev.mysql.com/downloads/file/?id=4672692.解压缩mysql-5.7.17-winx64.zip，我这里将文件解压到了E盘，放到了文件夹mysql5.7中。3.在安装目录下新建一个my.ini文件，然后用记事本打开输入mysql的基本配置：[mysql]#设置mysql客户

原创 2016-12-26 10:01:06 · 1699 阅读 · 0 评论
hadoop2.7.3伪分布式搭建之二------>JDK在Linux虚拟机上的安装

1. 下载jdk-8u45-linux-x64.tar.gz，并上传到Linux虚拟机中2.解压jdk #创建文件夹 mkdir /home/hadoop/app#解压 tar -zxvf jdk-8u45-linux-x64.tar.gz -C /home/hadoop/app3.将java添加到环境变量

原创 2016-11-17 19:55:58 · 863 阅读 · 0 评论
HDFS的java接口实现上传下载

简单的hdfs上传，下载实现1.使用idea导入hdfs的基本包方法一：复制粘贴法导jar包项目工程下新建lib文件夹------>复制hadoop的jar包到文件夹下：hadoop-2.7.3/share/hadoop/common下的包（包含lib下的包）hadoop-2.7.3/share/hadoop/hdfs（包含lib下的包）------>

原创 2016-11-28 13:37:16 · 1083 阅读 · 0 评论
hadoop之HA架构----->NameNode的高可靠性缘由

注意：只有hadoop2.x以后才有HA机制一、概念性1.ZKFC（DFSZKFailoverController）------>故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为active状态2.NameService------>含有两个NameNode，NameService可以进行水平扩展，来提高内存的存储量3

原创 2016-12-27 10:11:51 · 1230 阅读 · 0 评论
hadoop之sqoop------>数据迁移工具

一、环境准备 1. sqoop工具 ------->sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2. mysql安装包------>mysql-5.7.17-winx64.zip 3.mysql数据库连接工具------>Navicat Premium 4.mysql驱动程序------>mysql-connector-java-5.1.

原创 2016-12-26 10:15:24 · 628 阅读 · 0 评论
hadoop之shuffle------>MapReduce的心脏i

一、shuffle简介什么是shuffle 一句话：Reducer端获取Mapper端的数据的过程二、shuffle工作流程 1.Map读取输入文件------>进行map计算------>Mapper将数据写入到环形缓冲区注意：1.一个Mapper对应一个环形缓冲区 2.环形缓冲区存在于内存中，默认100M，mappered-site.x

原创 2016-12-18 11:06:39 · 458 阅读 · 0 评论
hadoop提交作业------>yarn提交job的源码跟踪

一、流程分析图二、代码跟进waitForCompletion(){ submit()}------>class job{ private Cluster cluster; submit(){connect(){cluser = new Cluster(getConfiguration() //持有Client的引用，作为job的成员变量

原创 2016-12-11 10:16:13 · 1122 阅读 · 0 评论
Hadoop之Mapreduce------>3种运行模式

一、本地模式运行1/在windows的idea里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下（c:/wc/srcdata/） ----输入输出数据也可以放在hdfs中(hdfs://hadoop03:9000/wc/srcdata)（注意：如果提示权限错误：附给权限即可例

原创 2016-12-11 16:15:39 · 1199 阅读 · 0 评论
HDFS上传与下载底层实现------>源码分析

一、 java实现下载回顾二、原理解析1. FileSystem.get(conf)解析FileSystem.get(conf) //得到文件系统FileSystem的实例------>get(conf){get(url,conf) //调用内部的get(url,conf)方法}------>get(url,conf){

原创 2016-12-04 11:40:50 · 645 阅读 · 0 评论
Hadoop之Mapreduce------>入门级程序WordCount原理

一、WordCount的需求计算每一个单词出现的次数二、WordCount的分析Map读取输入文件内容，解析成key、value对（k1是字节偏移量，v1是一行的文件内容）------>将文件内容转换成字符串------>按照空格切分成若干单词------>遍历单词内容，出现一次，记作‘1’，以新的key、value写出去Reduce得到上面

原创 2016-12-07 10:32:49 · 437 阅读 · 0 评论
hadoop之shuffle------>分区机制Partitioner

一、需求用一个具体需求实例来说明Partitioner分区机制例如：将下列手机号进行分区，135,136,137,138，139等开头的手机号放到一个文件，150，159等开头的手机号放到一个文件，182，183等开头的手机号放到一个文件，其他手机号放到一个文件手机号上行流量下行流量总流量1348025310418018036013

原创 2016-12-13 21:46:48 · 2357 阅读 · 0 评论
Hadoop之Mapreduce------>入门级程序WordCount代码编写

一、Mapper编写继承Mapper类------>重写map方法------>实现具体业务逻辑------>将新的key,value输出public class WCMapper extends Mapper { @Override protected void map(LongWritable key, Text value, Context cont

原创 2016-12-07 21:50:48 · 394 阅读 · 0 评论
Hadoop提交作业------>hadoop工作流程

一、需要知道的内容1.ResourceManager ------>yarn的老大2.NodeManager ------>yarn的小弟3.ResourceManager调度器 a.默认调度器------>先进先出FIFO b.公平调度器------>每个任务都有执行的机会......4.心跳

原创 2016-12-08 20:55:08 · 5550 阅读 · 0 评论
Hadoop之Hbase------>Hbase集群搭建

一、环境准备1.zookeeper集群已经成功搭建 ------->zookeeper集群搭建2.hadoop集群已经成功搭建 ------->hadoop集群搭建3.hbase安装包下载地址：http://apache.fayea.com/hbase/stable/二、环境搭建1.上传hbase安装包2.解压3.配置hbase集群，要修改

原创 2017-01-03 09:20:33 · 428 阅读 · 0 评论
Hadoop之Hbase------>Hbase常用命令

首先进入hbase命令行（在../hbase/bin目录下操作)./hbase shell 显示hbase中的表list帮助help ‘create’创建user表，包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSION

原创 2017-01-03 09:30:32 · 416 阅读 · 0 评论
hadoop之shuffle------>soft和combiner

一、shuflle之soft 此处用一个具体的实例来说明soft机制实例： 1. 需求账号收入支出日期zhangsan@163.com6000 0 2014-02-20lisi@163.com 2000 0 2014-02-20lisi@163.com 0

原创 2016-12-18 10:23:34 · 497 阅读 · 0 评论
Hadoop之Mapreduce------>Mapreduce原理

Mapruduce工作原理与hdfs（分布式文件系统）不同，Mapreduce 是一个分布式计算模型，如图执行步骤： 1. map任务处理------>切片1.1 读取输入文件内容，解析成key、value对，输入文件的每一行，就是一个key、value对，对应调用一次map函数。1.2 写自己的逻辑，对输入的key、value（k1,v1）处理，转换成新的key、va

原创 2016-12-07 10:07:29 · 439 阅读 · 0 评论

hadoop篇

作者: 小虹尘

Hadoop的RPC通信------>java实现

hadoop2.7.3伪分布式搭建之一------>Linux环境的准备

hadoop2.7.3伪分布式搭建之三------>Hadoop2.7.3的安装

HDFS shell常用命令

hadoop核心------>HDFS原理

Hadoop的RPC通信(二)------>框架封装思想

hadoop之zookeeper集群搭建

hadoop2.7.3集群搭建------>真正的分布式环境

hadoop之sqoop准备工作------>windows10安装mysql

hadoop2.7.3伪分布式搭建之二------>JDK在Linux虚拟机上的安装

HDFS的java接口实现上传下载

hadoop之HA架构----->NameNode的高可靠性缘由

hadoop之sqoop------>数据迁移工具

hadoop之shuffle------>MapReduce的心脏i

hadoop提交作业------>yarn提交job的源码跟踪

Hadoop之Mapreduce------>3种运行模式

HDFS上传与下载底层实现------>源码分析

Hadoop之Mapreduce------>入门级程序WordCount原理

hadoop之shuffle------>分区机制Partitioner

Hadoop之Mapreduce------>入门级程序WordCount代码编写

Hadoop提交作业------>hadoop工作流程

Hadoop之Hbase------>Hbase集群搭建

Hadoop之Hbase------>Hbase常用命令

hadoop之shuffle------>soft和combiner

Hadoop之Mapreduce------>Mapreduce原理