hadoop篇
小虹尘
心有凌云志,到处是青山!
展开
-
Hadoop的RPC通信------>java实现
一 、服务端编写(1)RPCServer类 public class RPCServer implements Bizable{ public String sayHi(String name){ return "Hi~"+name; } public static void main(String[] args) throws Excep原创 2016-11-29 21:44:38 · 356 阅读 · 0 评论 -
hadoop2.7.3伪分布式搭建之一------>Linux环境的准备
图形界面法 虚拟机ip设置 (1) 打开VMware Workstation----> 虚拟机---->设置---->网络适配器---->自定义模式 Vnet8 (2)查询windows ip 进入cmd命令窗口---->输入ipconfig----> 记住 以太网适配器 VMware Ne原创 2016-11-16 23:19:55 · 584 阅读 · 0 评论 -
hadoop2.7.3伪分布式搭建之三------>Hadoop2.7.3的安装
1. 第一步 上传hadoop的安装包hadoop-2.7.3.tar.gz到服务器上去/home/hadoop/2. 第二步 配置hadoophadoop-2.7.3的搭建需要修改5个配置文件第一个:hadoop-env.shvim hadoop-env.sh#第27行export JAVA_HOME=/usr/java/jdk1.8原创 2016-11-17 20:08:40 · 3995 阅读 · 0 评论 -
HDFS shell常用命令
1.0查看帮助hadoop fs -help 1.1上传hadoop fs -put 例如:hadoop fs -put /home/hadoop/jdk-8u45-linux-x64.tar.gz hdfs://hadoop01:9000/jdk1.2查看文件内容hadoop fs -cat 例如:hadoo原创 2016-11-20 10:09:38 · 1125 阅读 · 0 评论 -
hadoop核心------>HDFS原理
一 、hdfs体系架构1.NameNode------>管理节点------>hdfs中老大 (1)维护着整个文件系统的文件目录树; (2)维护元数据信息; (3)接收用户的操作请求2.DataNode------>提供真实文件数据的存储服务------>hdfs中小弟 将文件进行划分并编号,切分成n个B原创 2016-11-23 22:01:22 · 451 阅读 · 0 评论 -
Hadoop的RPC通信(二)------>框架封装思想
一 、 RPC框架的底层原理封装1.客户端Controller2.服务端Server3.业务接口LoginServiceInterface如图:1.首先controller会根据业务员接口,生成一个客户端socket程序动态代理对象proxy2.controller通过proxy调用业务的方法,例如:proxy.login(username,password)3原创 2016-12-01 22:03:10 · 354 阅读 · 0 评论 -
hadoop之zookeeper集群搭建
一 、zookeeper简介 有一个leader,n个follower 二 、作用 对hadoop ------>确保集群中只有一个活跃的NameNode... 对HBase ------>确保集群中只有一个HMaster... 三 、环境搭建 下载地址:http://zookeeper.apache.org/1.上传zk安装包原创 2016-12-21 21:48:47 · 616 阅读 · 0 评论 -
hadoop2.7.3集群搭建------>真正的分布式环境
一、集群股规划主机名IP 安装的软件运行的进程hadoop01 192.168.19.132 jdk、hadoop NameNode、DFSZKFailoverController(zkfc)hadoop02 192.168.19.129 jdk、hadoop、zookeeper DataNode、N原创 2016-12-26 14:01:44 · 2094 阅读 · 0 评论 -
hadoop之sqoop准备工作------>windows10安装mysql
一 、软件安装1.下载地址:http://dev.mysql.com/downloads/file/?id=4672692.解压缩mysql-5.7.17-winx64.zip,我这里将文件解压到了E盘,放到了文件夹mysql5.7中。3.在安装目录下新建一个my.ini文件,然后用记事本打开输入mysql的基本配置:[mysql]#设置mysql客户原创 2016-12-26 10:01:06 · 1699 阅读 · 0 评论 -
hadoop2.7.3伪分布式搭建之二------>JDK在Linux虚拟机上的安装
1. 下载jdk-8u45-linux-x64.tar.gz,并上传到Linux虚拟机中2.解压jdk #创建文件夹 mkdir /home/hadoop/app#解压 tar -zxvf jdk-8u45-linux-x64.tar.gz -C /home/hadoop/app3.将java添加到环境变量原创 2016-11-17 19:55:58 · 863 阅读 · 0 评论 -
HDFS的java接口实现上传下载
简单的hdfs上传,下载实现1.使用idea导入hdfs的基本包方法一:复制粘贴法导jar包 项目工程下新建lib文件夹------>复制hadoop的jar包到文件夹下:hadoop-2.7.3/share/hadoop/common下的包(包含lib下的包)hadoop-2.7.3/share/hadoop/hdfs(包含lib下的包)------>原创 2016-11-28 13:37:16 · 1083 阅读 · 0 评论 -
hadoop之HA架构----->NameNode的高可靠性缘由
注意:只有hadoop2.x以后才有HA机制一 、概念性1.ZKFC(DFSZKFailoverController)------>故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为active状态2.NameService------>含有两个NameNode,NameService可以进行水平扩展,来提高内存的存储量3原创 2016-12-27 10:11:51 · 1230 阅读 · 0 评论 -
hadoop之sqoop------>数据迁移工具
一、环境准备 1. sqoop工具 ------->sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2. mysql安装包------>mysql-5.7.17-winx64.zip 3.mysql数据库连接工具------>Navicat Premium 4.mysql驱动程序------>mysql-connector-java-5.1.原创 2016-12-26 10:15:24 · 628 阅读 · 0 评论 -
hadoop之shuffle------>MapReduce的心脏i
一 、shuffle简介 什么是shuffle 一句话:Reducer端获取Mapper端的数据的过程二、shuffle工作流程 1.Map读取输入文件------>进行map计算------>Mapper将数据写入到环形缓冲区 注意:1.一个Mapper对应一个环形缓冲区 2.环形缓冲区存在于内存中,默认100M,mappered-site.x原创 2016-12-18 11:06:39 · 458 阅读 · 0 评论 -
hadoop提交作业------>yarn提交job的源码跟踪
一、流程分析图二 、代码跟进waitForCompletion(){ submit()}------>class job{ private Cluster cluster; submit(){connect(){cluser = new Cluster(getConfiguration() //持有Client的引用,作为job的成员变量原创 2016-12-11 10:16:13 · 1122 阅读 · 0 评论 -
Hadoop之Mapreduce------>3种运行模式
一 、本地模式运行1/在windows的idea里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://hadoop03:9000/wc/srcdata)(注意:如果提示权限错误:附给权限即可 例原创 2016-12-11 16:15:39 · 1199 阅读 · 0 评论 -
HDFS上传与下载底层实现------>源码分析
一 、 java实现下载回顾二 、原理解析1. FileSystem.get(conf)解析FileSystem.get(conf) //得到文件系统FileSystem的实例------>get(conf){get(url,conf) //调用内部的get(url,conf)方法}------>get(url,conf){原创 2016-12-04 11:40:50 · 645 阅读 · 0 评论 -
Hadoop之Mapreduce------>入门级程序WordCount原理
一、WordCount的需求 计算每一个单词出现的次数二、WordCount的分析Map读取输入文件内容,解析成key、value对(k1是字节偏移量,v1是一行的文件内容)------>将文件内容转换成字符串------>按照空格切分成若干单词------>遍历单词内容,出现一次,记作‘1’,以新的key、value写出去Reduce得到上面原创 2016-12-07 10:32:49 · 437 阅读 · 0 评论 -
hadoop之shuffle------>分区机制Partitioner
一 、需求 用一个具体需求实例来说明Partitioner分区机制例如: 将下列手机号进行分区,135,136,137,138,139等开头的手机号放到一个文件,150,159等开头的手机号放到一个文件,182,183等开头的手机号放到一个文件,其他手机号放到一个文件手机号 上行流量 下行流量 总流量1348025310418018036013原创 2016-12-13 21:46:48 · 2357 阅读 · 0 评论 -
Hadoop之Mapreduce------>入门级程序WordCount代码编写
一 、Mapper编写继承Mapper类------>重写map方法------>实现具体业务逻辑------>将新的key,value输出public class WCMapper extends Mapper { @Override protected void map(LongWritable key, Text value, Context cont原创 2016-12-07 21:50:48 · 394 阅读 · 0 评论 -
Hadoop提交作业------>hadoop工作流程
一 、需要知道的内容1.ResourceManager ------>yarn的老大2.NodeManager ------>yarn的小弟3.ResourceManager调度器 a.默认调度器------>先进先出FIFO b.公平调度器------>每个任务都有执行的机会......4.心跳原创 2016-12-08 20:55:08 · 5550 阅读 · 0 评论 -
Hadoop之Hbase------>Hbase集群搭建
一、环境准备1.zookeeper集群已经成功搭建 ------->zookeeper集群搭建2.hadoop集群已经成功搭建 ------->hadoop集群搭建3.hbase安装包 下载地址:http://apache.fayea.com/hbase/stable/二、环境搭建1.上传hbase安装包2.解压3.配置hbase集群,要修改原创 2017-01-03 09:20:33 · 428 阅读 · 0 评论 -
Hadoop之Hbase------>Hbase常用命令
首先进入hbase命令行(在../hbase/bin目录下操作)./hbase shell 显示hbase中的表list帮助help ‘create’创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSION原创 2017-01-03 09:30:32 · 416 阅读 · 0 评论 -
hadoop之shuffle------>soft和combiner
一 、shuflle之soft 此处用一个具体的实例来说明soft机制实例: 1. 需求账号 收入 支出 日期zhangsan@163.com6000 0 2014-02-20lisi@163.com 2000 0 2014-02-20lisi@163.com 0原创 2016-12-18 10:23:34 · 497 阅读 · 0 评论 -
Hadoop之Mapreduce------>Mapreduce原理
Mapruduce工作原理与hdfs(分布式文件系统)不同,Mapreduce 是一个分布式计算模型,如图执行步骤: 1. map任务处理------>切片1.1 读取输入文件内容,解析成key、value对,输入文件的每一行,就是一个key、value对,对应调用一次map函数。1.2 写自己的逻辑,对输入的key、value(k1,v1)处理,转换成新的key、va原创 2016-12-07 10:07:29 · 439 阅读 · 0 评论