![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
banana`
这个作者很懒,什么都没留下…
展开
-
阿里云服务器安装Azkaban邮件配置遇的坑
Azkaban发送邮件默认使用的是STMP 25端口,但是阿里云服务器25端口是被禁用的,所以需要将25端口换到465端口 采用smtps协议传输邮件(25端口是非SSl协议传输),方法是修改源码,具体如下:git clone 下载Azkaban源码到服务器: [root@boyi_bi azkaban]# git clone https://github.com/azkaban/a...原创 2019-10-29 13:41:43 · 1595 阅读 · 0 评论 -
Azkaban从编译到安装
前言本文以Azkaban官网为参照,解读如何正确编译安装Azkaban,如有错误之处,请不吝指出。编译前准备Azkaban介绍:Azkaban官网开篇介绍,Azkaban is a distributed Workflow Manager, implemented at LinkedIn to solve the problem of Hadoop job dependencies....原创 2019-10-24 15:54:21 · 566 阅读 · 0 评论 -
压缩在Hadoop中的应用
概述压缩:压缩是一种通过特定的算法来减小计算机文件大小的机制,简单来说就是使用相关压缩技术将文件内容减少的过程优点: 1.节省存储空间 2.减少网络带宽IO 3.减少磁盘IO缺点: 1.压缩解压会有CPU开销 2.消耗时间分类: 1.Lossless 无损压缩,应用在一些日志文件等 2.Lossy 有损压缩,应用在图片,视频文件等常用的压缩技术及比较:...原创 2018-03-12 22:57:42 · 433 阅读 · 0 评论 -
Hadoop HA 部署
Hadoop 集群本次学习我们使用3台Linux虚拟机,每台虚拟机环境如下: 配置集群SSH互信配置集群互信,可以让集群机器无密码互相访问执行命令ssh-keygen3台集群机器分别执行ssh-keygen命令,生成当前用户下的.ssh文件,文件包括私钥id_rsa和公钥id_rsa.pub1. [root@hadoop001 ~]# ssh-keygen ...原创 2018-03-09 22:45:10 · 369 阅读 · 0 评论 -
Hadoop 编译
1. Hadoop 源代码下载,上传,解压下载:Hadoop 官网:hadoop.apache.org, 下载hadoop 源代码包上传:使用 rz命令上传hadoop-2.8.1-src.tar.gz 源代码安装包解压:[root@hadoop001 sourcecode]# tar -xzvf hadoop-2.8.1-src.tar.gz (解压到创建的...原创 2017-12-26 19:25:13 · 315 阅读 · 0 评论 -
Hadoop 部署(伪分布模式Pseudo-Distributed Mode)
1. 安装前的准备:在进行Hadoop伪分布式安装前要检测虚拟机是否进行了下面的配置:1.1 修改主机名:临时修改:hostname 主机名 永久修改: vi /etc/sysconfig/network hostname=主机名1.2 修改主机名与ip之间的映射关系vi /etc/hosts 添加:ip + 主机名 #使用hostname -...原创 2017-12-26 20:49:11 · 773 阅读 · 0 评论 -
HDFS
1. HDFS介绍:HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming acc...原创 2018-01-09 21:46:01 · 965 阅读 · 0 评论 -
MapReduce作业原理
MapReduce 分2个版本: 基于hadoop1.x的MR1 基于hadoop2.x的MR2MapReduce1工作原理:首先客户端要编写好mapreduce程序,然后提交作业也就是job,job的信息会发送到JobTracker上,并为该job分配一个ID值,接下来做检查操作,确认输入目录是否存在,如果不存在,则会抛错,如果存在继续检查输出目录是否存在,如果...原创 2018-01-17 20:25:32 · 637 阅读 · 0 评论 -
Hadoop HA(高可靠)架构原理
使用Zookeeper概念: Zookeeper是一个服务是框架,进行对像hadoop 这样程序的协调服务。Hadoop 中HDFS和Yarn 都存在单点故障,尽管在HDFS中还有SNN进行元数据备份,但每隔60m 一次的checkpoint并不能实现HDFS高容错性的特点,所以使用Zookeeper可以协调Hadoop,以选举的形式实现数据备份,避免单点故障。*条件: ZK部署节...原创 2018-03-06 22:02:16 · 2822 阅读 · 0 评论