- 博客(19)
- 收藏
- 关注
原创 flume
Exec测试在conf中创建agent配置文件(最好专门建个文件夹装它)添加以下内容:a1.sources = r1a1.sinks = k1a1.channels = c1 # Describe/configure the sourcea1.sources.r1.type = execa1.sources.r1.command = tail -F /hom...
2018-08-19 17:17:29 238
原创 hdfs的读写数据流程
写现在客户端要上传一个300M的文件,这个文件被客户端分成三块。第一步:客户端向namenode请求上传文件第二步:namenode检查元数据,看是否文件已经存在等,然后对客户端发送可以上传的信息第三步:客户端通知namenode上传第一块数据第四步:namenode返回第一块数据的存放节点data1、data2、data4副本存放原则:1.第一块放在跟客户端同机架的其他机...
2018-08-07 23:30:47 296
原创 案例:多文件输出
hello worldHello World123nihaoQQ163.com@qq.com(123)&123*abchi gaoyuanyuanhello jiajingwen单词首字母为a-z输出到一个文件中,并统计单词首字母为A-Z输出到一个文件中,并统计单词首字母为0-9输出到一个文件中,并统计单词首字母为其他的输出到一个文件,并统计案例代码:...
2018-08-04 16:37:23 295
原创 mapreduce的流程
maptask首先调用TextInputFormat,TextInputFormat调用了creatRecordReader方法,并告知creatRecordReader读取切片split0creatRecordReader创建了lineRecordReader(按行读取数据),lineRecordReader调用nextKeyValue,getCurrentKey,getCurrent...
2018-08-02 21:30:32 230
原创 yarn的工作流程
步骤1 用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。步骤2 ResourceManager为该应用程序分配第一个Container(这里可以理解为一种资源比如内存),并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。步骤3 Ap...
2018-08-01 18:41:39 2464
原创 hdfs的高可用配置及java api配置连接方式
配置之前需要具备的环境进入官网后找到左侧Documentation,点击对应版本点击左侧栏修改core-site.xml文件进入目录[root@hadoop01 ~]# cd /usr/local/hadoop-2.7.1/etc/hadoop/vi 进入后找到修改为(名字随便起)添加<property> <nam...
2018-07-31 21:11:39 4973
原创 利用QJM和zookeeper实现HDFS高可用
为防止单点故障,在hadoop2.X中通常由两个NameNode组成,一个处于active状态(皇帝),另一个处于standby状态(太子)。Active NameNode负责和客户端的交流,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。那么ActiveNameNode挂了怎么办?这两台NameNode是以第...
2018-07-31 17:58:22 600
原创 zookeeper的安装及环境搭建
首先检查一下几台虚拟机的时间是否同步,如果不同步需要设置一下将安装包拖入sftp工具后解压配置环境变量vi /etc/localexport ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.10export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile如果权限不够需要修改权限ch...
2018-07-30 21:44:24 126
转载 datanode的工作机制
DATANODE的工作机制问题场景:1、集群容量不够,怎么扩容?2、如果有一些datanode宕机,该怎么办?3、datanode明明已启动,但是集群中的可用datanode列表中就是没有,怎么办? 1 概述1、Datanode工作职责: 存储管理用户的文件块数据 定期向namenode汇报自身所持有的block信息(通过心跳信息上报)(这点很重...
2018-07-29 22:22:30 358
转载 namenode的工作机制包含secondaryNamenode
hadoop 集群中有两种节点,一种是namenode,还有一种是datanode。其中datanode主要负责数据的存储,namenode主要负责三个功能,分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求首先介绍下,元数据格式hdfs在外界看来就是普通的文件系统,可以通过路径进行数据的访问等操作,但在实际过程存储中,却是分布在各个节点上。如上图所示,是一条元数据,/...
2018-07-29 22:13:20 428
原创 使用maven构建java项目
创建一个新的maven项目到http://mvnrepository.com/点击hadoop-common选择对应版本,把依赖复制到maven中还需要加上复数<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-commo...
2018-07-28 00:09:20 648
原创 hadoop的环境搭建
hdfs有三种版本:单机版 伪分布式版 全分布式版1.单机版的安装:首先将安装包拖入sftp工具中,解压:tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local配置环境变量:vi /etc/profileexport HADOOP_HOME=/usr/local/hadoop-2.7.1export PATH=$PATH:$HADO...
2018-07-23 20:30:12 217
原创 ssh免密登录
首先确认ssh安装上,简易的ssh连接其他机器步骤:以Hadoop01 Hadoop02 hadoop03为例ssh hadoop02 / ip 这里可以输名字是因为在c盘里配置了yes输入密码这种方式虽然可以连接机器,但是有人机相互界面,不方便免密登录设置:1.生成密钥对:ssh-keygen -t rsa (有的可能已...
2018-07-21 09:53:53 128
原创 Linux软件的安装方法
1.二进制安装二进制安装比较简单,但是需要注意安装包的后缀名(.gz)先将安装包拖入sftp工具中,再解包并且解压缩:tar -zxvf file.gz -C /路径这样就安装完成了,但是jdk还需要配置环境变量vi /etc/profileexport JAVA_HOME=/路径/jdk版本号export PATH=$PATH:$JAVA_HOME/bin最后还需要...
2018-07-20 22:28:50 152
原创 防火墙的规则表与规则链
1、防火墙防火墙是根据配置文件/etc/sysconfig/iptables来控制本机的"出、入"的网络访问行为。Filter表:主要是跟进入linux本机的数据包有关,过滤数据包,默认表。1):INPUT链:过滤所有目标地址是本机的数据。(对进入本机的数据包进行过滤)2):OUTPUT链:过滤由本机产生的数据(对源地址是本机的数据包进行过滤)3):FORWARD链:过滤所有路过本...
2018-07-19 17:46:47 4094
原创 关于linux虚拟机克隆后存在的一些问题
网络设置最好在安装系统的时候就设置好,省去后面不必要的麻烦。克隆出来的虚拟机的主机名和ip地址、网卡与主机一致,所以需要修改:首先进入系统中输入 vi /etc/udev/rules.d/70-persistent-net.rules然后将第一个网卡删除,把第二个网卡的NAME改成eth0,保存,退出在输入vi /etc/sysconfig/network-scripts/ifcf...
2018-07-18 19:23:13 1314
原创 Linux中的进阶指令与高级指令
df指令:查看磁盘空间语法格式:#df-h(不带-h 就没有单位可读性差)free指令:查看内存使用情况语法格式:#free(没有单位)#free-m(以M为单位,但是会有误差)head指令:①查看一个文件的前n行,如果不指定n的数值,默认显示前十行。 ②可以动态的查看一个文件的变化语法格式①:#head-n 文件路径 名字语法格式②:#head-f 文件路径 名字...
2018-07-14 14:10:00 2013
原创 Linux中常用基础命令
Linux常见基础命令 ls(list)有三种用法:1. ls:列出当前目录下所有文件和文件夹的名称。2. ls路径:列出指定目录下所有文件和文件夹的名称 相对路径(./当前目录 ../上一级目录) 绝对路径:从根目录开始3. ls 选项 路径 列出指定目录下所有文件和文件夹的名称并以指定的格式进行显示常见语法:1. ls-l 路径 以详细列表的形式进行显示2. ls...
2018-07-13 20:45:11 214
原创 Linux系统中重要的文件目录
目录结构Bin:全称是binary,二进制的意思。目录下储存的是一些二进制文件,且这些文件都是可以被运行的。Dev:该目录储存的主要是外接设备,例如:盘、其他的光盘等。这些外接设备是不能直接被使用的,需要挂载。Etc:主要储存一些配置文件。Home:"家"目录,除了root用户以外其他用户的家目录,类似于Windows系统中的User。Proc:全称Process,该目录储存的是Linux运行时储...
2018-07-13 16:03:01 449
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人