![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
我在路上....
这个作者很懒,什么都没留下…
展开
-
MapReduce读取Mysql数据
MapReduce编程流程编写Map类实现Mapper接口编写Reduce类,实现Reducer接口编写Driver实例化Job设置启动类设置Map,Reduce类设置Map,Reduce的输出输入KV类型启动job自定义序列化流程实现Writable接口覆写write和readFields方法,读写顺序保持对应package com.lrj.mr;imp...原创 2020-02-02 17:26:17 · 688 阅读 · 0 评论 -
Hive - 基础4 大综合练习
Hive - 基础4 大综合练习1.需求需求:每个区域的受欢迎的产品的Top N2.准备数据-- Mysql数据库-- 城市表CREATE TABLE `city_info` ( `city_id` int(11) DEFAULT NULL, `city_name` varchar(255) DEFAULT NULL, `area` varchar(255) DEFAUL...原创 2019-07-27 03:28:06 · 162 阅读 · 0 评论 -
Hadoop - block,replication,architecture
Hadoop - block,replication,architecture1.Blockhadoop2.0以上,一个block块的大小为128m,hadoop2.0以下为64mblock块为128m,并不意味着存储就是128m,打个比方,一瓶水500ml,用150ml的杯子来分,那么至少需要4个杯子,3*150ml=450ml,剩下的一个杯子只有50ml了,这个150ml就相当于一个b...原创 2019-07-07 13:59:25 · 639 阅读 · 0 评论 -
Hadoop -Yarn Scheduler调度器
Hadoop -Yarn Scheduler调度器理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供...转载 2019-07-16 01:02:10 · 147 阅读 · 0 评论 -
Hadoop - MapReduce on Yarn
Hadoop - MapReduce on Yarn1.word count# 启动hdfs和yarnstart-dfs.shstart-yarn.sh# 提交任务hadoop jar /hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /logs /example...原创 2019-07-16 00:55:21 · 150 阅读 · 0 评论 -
Hadoop基础 2-mapreduce&yarn
Hadoop基础 2hadoop整体架构(主从架构)NameNode 名称节点 老大DataNode 数据节点Secondary NameNode 名称节点 老二Hadoop最好使用hostname进行节点配置对于虚拟机,配置规则: 内网 ip hostname对于云主机,配置规则: 内网ip hostname但是云主机需要添加公网访问权限,设置安全组CloudMan...原创 2019-07-06 19:15:57 · 113 阅读 · 0 评论 -
Hadoop - mapreduce作业流程
Hadoop - mapreduce作业流程客户端提交作业任务给ResourceManaher的ApplicationsManagerApplicationsManager收到请求,与某个NodeManager进行RPC通信,要求NodeManager启动一个Container容器来运行我们作业的ApplicationMasterApplicationsMaster启动完成后,想Appli...原创 2019-07-13 19:19:30 · 150 阅读 · 0 评论 -
Hadoop - container on yarn
Hadoop - container on yarnhadoop 2.x版本的mapreduce任务都提交到yarn框架执行container定义:将一定的内存和CPU,如4G内存,1个vcore抽象成一个container任务都是运行在container里vcore:虚拟核数,一般是机器实际core的2倍yarn参数配置细节假定机器配置为64G,16corelinu...原创 2019-07-13 18:28:00 · 259 阅读 · 0 评论 -
Hadoop 读写流程和常用命令
Hadoop 读写流程和常用命令1.读流程client向分布式文件系统DistributionFileSystem发送读请求分布式文件系统与NameNode进行Rpc通信NameNode对文件是否存在,用户是否有权限等进行校验,校验如果成功,则向分布式系统返回一个FsDataInputStream对象(包含了文件由哪些块组成,block分布在哪些节点等等信息)client...原创 2019-07-08 17:58:53 · 359 阅读 · 0 评论 -
HDFS 块损坏和恢复
HDFS 块损坏和恢复# 先建个文件echo 'The NameNode and DataNode are pieces of software designed to run on commodity machines. These machines typically run a GNU/Linux operating system (OS). HDFS is built using th...转载 2019-07-07 16:40:01 · 458 阅读 · 0 评论 -
Hadoop 伪分布式安装
Hadoop 伪分布式安装#下载tar包http://archive.cloudera.com/cdh5/cdh/5/wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz# 新建一个专门管理hadoop的用户useradd hadoopsu - root# 安装java,需要安装java在/...原创 2019-07-01 19:58:38 · 128 阅读 · 0 评论