![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
簡箪
这个作者很懒,什么都没留下…
展开
-
YARN的内存和CPU配置
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每两个...转载 2018-11-01 16:40:09 · 147 阅读 · 0 评论 -
Maxwell部署
Maxwell是作为中间件的存在,因此部署之前需要环境,这里用MySQL读到Maxwell生成json串下载官网或者git下载或者直接在Linux上wget tar包我这里下载到了Hadoop用户下software中(个人一直将这些tar包放在一个目录下)修改MySQL的配置更改my.cof 下的binlog_format 为ROW 类型然后创建 maxwell的数据库,刷新权限等...原创 2019-03-25 18:00:52 · 506 阅读 · 2 评论 -
Scala造数据(测试用)
之前我发了一篇用python造数据的代码,现在用scala造数据(毕竟学习大数据不能不用scala)添加了命令行输入行数,增加了IP字段注意,里边的IP, URL都是之前定义的数据,可以自己写,也可以直接上网找IP库,为了调整方便做成的外部数据源输入import java.io.{File, PrintWriter}import scala.collection.mutable.Arra...原创 2019-01-03 11:08:04 · 806 阅读 · 0 评论 -
Python造数据(测试用)
大数据经常需要进行测试,然而需要手动建立测试用数据,以下就是我利用python实现的简单造日志数据import random'''url time traffic http://ruozedata.com/basic.html [2018-12-0...原创 2018-12-24 15:52:19 · 4631 阅读 · 0 评论 -
hadoop SequenceFile详解
1. 什么是SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。1.2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。1.3.SequenceFile文件并不按照其存储的Key进行排序存储,Sequenc...转载 2018-12-24 15:39:59 · 439 阅读 · 0 评论 -
Hadoop支持LZO
首先需要配置环境yum -y install lzo-devel zlib-devel gcc autoconf automake libtool下载lzo包wget www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz解压tar -zxvf lzo-2.06.tar.gz -C ~/app然后进入到目录中执行以...原创 2018-12-11 23:43:23 · 853 阅读 · 0 评论 -
HADOOP编译
我使用的Hadoop版本是2.6.0-cdh5.7.0的源码进行编译首先解压Hadoop源码到指定位置tar -xzvf hadoop-2.6.0-cdh5.7.0-src.tar.gz -C ~/source/原创 2018-12-08 15:51:25 · 93 阅读 · 0 评论 -
Hadoop HA集群搭建
本地的Hadoop为分布式搭建已经完成了, 正常的生产上需要用到的是高可用集群,因此需要Hadoop HA的搭建在此我使用阿里云主机建立了3个实例进行Hadoop HA的集群搭建首先在本地查看是否可以ping通,然后利用Xshell或者其他软件进行远程SSH连接进行操作,我用的是MobaXterm(个人觉得还是比较好用的)首先,一般公司不会给你root用户,最多给你一个sudo权限的用户进...原创 2018-11-27 16:51:29 · 107 阅读 · 0 评论 -
Hadoop集群启动失败,提示Name or service not knownstname
在hadoop配置完成后启动集群发现datanode启动失败提示在这里有可能是因为在windows系统中编辑的slaves文件传输到Linux中后是以dos文件存在的这样导致了slaves文件被污染,需要手工改动成unix文件dos2unix slaves如果没有的话yum安装一下转换后再次启动或关闭时就不会报错了...原创 2018-11-27 16:30:11 · 1529 阅读 · 0 评论 -
SSH 多机器无密码访问
利用阿里云3台主机进行无密码访问为Hadoop集群搭建做基础首先进入hadoop用户然后ll -a查看隐藏文件我们发现里边有个.ssh文件夹,但是没什么用,所以rm -rf .ssh删除文件夹再用ssh-keygen生成密钥然后我们选取第一台为主,将剩下两台的公钥发送给第一台然后生成authorized_keys文件并且将pub,2,3追加到里边cat id_rsa.pub &...原创 2018-11-26 18:13:41 · 173 阅读 · 0 评论 -
Hadoop HA----YARN的HA架构
其实从本质上来说,YARN的HA跟HDFS的HA还是很相似的先来思考一下伪分布式架构下的Yarn是怎么样的。主从结构,两个进程:RM和NM。ResourceManager和NodeManager,其中ResourceManager里还有两个部分:ApplicationsManager和ResourceSchedule,前者负责监控在NM上的所有ApplicationMaster的情况,后者主要监...原创 2018-11-29 16:27:12 · 166 阅读 · 0 评论 -
Hadoop HA----HDFS的HA架构
在这里我们首先回顾一下我们在时候伪分布式学习时的HDFS的架构设计。在同一个机子上我们有三个进程,分别是NameNode,DataNode,SecondaryNameNode。其中,DataNode就是进行数据管理的节点,其会定期将其保存的数据与相应文件的对应关系(就是blockreport)和这个节点的心跳包发送到NameNode节点上,HA和伪分布式上的DataNode的功能都是一致的。这里我...原创 2018-11-29 16:06:24 · 352 阅读 · 0 评论 -
Hadoop理论——hdfs读、写流程
在Hadoop中我们一定会使用hdfs的传输,那么,hdfs的读写流程究竟是什么,我利用了一点时间整理了一下hdfs写流程1,客户端client调用DistributedFileSystem这个对象的create方法去和NameNode这个节点进行rpc通信,然后NameNode来检查create这个方法所传输过来的hdfs_path这个路径是否已经存在以及是否有这个权限在这个路径里创建文件,...原创 2018-11-14 09:51:29 · 178 阅读 · 0 评论 -
Hadoop安装,配置
在Linux系统中创建一个新的用户进行Hadoop相关的管理,所谓的“专款专用”在命令行中创建一个用来放软件的文件夹mkdir software然后用wget 进行 下载wget http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz这个网址就是chd的下载镜像在这个里边就可以搜索到咱们...原创 2018-11-07 17:32:52 · 121 阅读 · 0 评论 -
Hadoop初识
1,Hadoop的解释广义上的:以hadoop软件为主的生态圈,包括什么:spark,sqoop,hive,Mahout等等狭义上的:就是hadoop就代表apache的hadoop,包括hdfs,mapreduce,yarn,这仨2,apache项目说到hadoop不能不提apache基金会,经常会有非常多的开源项目,包括我们的hadoop,spark,hive,flink等等。在这里提...原创 2018-11-07 16:27:40 · 91 阅读 · 0 评论 -
Hadoop理论——hdfs基础架构
开篇之前我们在这里先明确下hdfs是一个分布式文件存储系统,其和linux是相似的,linux也能算是一个文件存储系统(当然严格意思上是一个操作系统,但其所有的配置和命令都是以文件的形式存储,所以我们在这里就全当他是文件系统理解吧),但不是分布式的。其次,在我们日常的学习过程当中,我们使用的是伪分布式,就是我们的NameNode,DataNode和SecondaryNameNode是被部署到同一台...转载 2018-11-09 17:36:30 · 103 阅读 · 0 评论 -
Hadoop使用——hdfs shell
当Hadoop搭建完毕之后,启动Hadoop就可以使用了,而Hadoop既然是个分布式存储系统,那么肯定需要将文件上传到服务器进行存储,这篇博客就此进行初步的hdfs shell使用既然都是搭建在Linux下的,因此,hdfs shell也可以看见Linux命令的影子。我们使用hdfs dfs、hadoop fs使用,根据个人爱好使用就可以,这里使用hdfs dfs以下就是hdfs简单命令...原创 2018-11-09 17:34:06 · 150 阅读 · 0 评论 -
CDH 部署准备
现在随着大数据的广泛应用和框架的不断升级,我相信做过大多数程序员都会遇到,版本冲突的问题,CDH 就是为了解决各个不同的大数据框架之间的冲突问题,以及提供一套简洁的安装界面1.选择版本cloudera官网地址,进入官网地址之后,可以选择你需要安装的CDH的版本 ,这里我一CDH5.15.2 举例。在CDH 5.15.2 界面中可以看到安装文档,主要包括的就是对应支持的系统类型及其版本,J...转载 2019-03-26 10:42:37 · 142 阅读 · 0 评论