Hadoop
魂醉
这个作者很懒,什么都没留下…
展开
-
Apache hadoop install
结构组成:namenode:存放文件存放的目录datanode:存放具体数据secondaryNamenode:namenode的备节点jobtracker:作业跟踪节点tasktracker:任务跟踪节点运行模式:单机模式伪分布模式全分布模式全分布模式安装192.168.101.115 namenode192.168原创 2017-02-28 13:39:39 · 444 阅读 · 0 评论 -
CentOS6下Cloudera manager和CDH5.7.1离线安装
节点规划192-168-164-49 cloudera-manager-server, cloudera-manager-agent192-168-164-50 cloudera-manager-agent192-168-168-93 cloudera-manager-agent192-168-173-40 cloudera-manager-agent192-168-173-41 clo...原创 2019-05-21 11:38:07 · 336 阅读 · 0 评论 -
Apache Spark RDD 论文(中文翻译)
概要为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了 RDDs 的概念。当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是 RDDs 的提出的动机。如果能将数据保存在内存中,将会使的上面两种场景的性能提高一个数量级。为了能达到高效的容错,RDDs 提供了一种受限制的共享内存的方式,这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状...转载 2019-04-17 09:28:01 · 458 阅读 · 0 评论 -
ambari添加hue服务
HDP本身没包括HUE,这里介绍一下ambari集成HUE,本篇文章只记录步骤,不记录具体过程1.下载HUE服务,https://github.com/EsharEditor/ambari-hue-service,这里我下载的是4.2.0VERSION=`hdp-select status hadoop-client | sed 's/hadoop-client - \([0-9]\.[...原创 2019-03-28 15:26:44 · 2808 阅读 · 0 评论 -
使用ambari安装hadoop集群
之前一篇介绍了ambari的安装,这一篇介绍一下通过ambari安装Hadoop集群登陆后,给自己的hadoop集群起个名字选择HDP版本,并且选中use local repository我们操作系统是centos7,所以选择对应的redhat7,后面写上yum源的URL地址,然后next即可每一行一台主机,然后选中使用SSH Private Key,把192.168....原创 2019-03-22 14:01:10 · 1045 阅读 · 0 评论 -
Centos7下 Ambari安装
Ambari和其他hadoop开源项目一样,属于hadoop生态圈,用来管理监控hadoop集群Ambari自身也是分布式框架,分为Ambari server 和 Ambari agent另外HDP是hortonwork的软件栈,包含了hadoop所有的软件项目首先查看ambari版本对应的其他软件版本,如HDP,os等https://supportmatrix.hortonworks....原创 2019-03-21 15:47:27 · 616 阅读 · 0 评论 -
apache yarn HA
1.zookeeper配置正常关闭yarnstop-yarn.sh在yarn-site.xml中加上如下配置(将原先的resourcemanager.hostname注释掉) <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> <...原创 2018-07-02 13:52:12 · 368 阅读 · 0 评论 -
apache yarn资源配置策略(FIFO,capacity,fair)
yarn有一下三种资源调度策略1.FIFO 先进先出策略,某一时间段只有有一个job占用资源,后面的job要等待前面的job结束才可以获取资源2.capacity scheduler 把资源按队列划分,在job执行的时候,指定资源队列,队列之间是隔离的,但是队列内部是FIFO机制3.fair scheduler 当job1在执行的时候,job2进来后,可以从job1的资源队列获取一定的资源执行...原创 2018-07-02 11:33:07 · 2115 阅读 · 0 评论 -
Apache hdfs snapshot使用
HDFS快照是某个时间点文件的复制,而且是只读的,快照用来做数据的备份,在发生灾难的时候,可以恢复数据但是一定注意,快照不是对数据块的复制,快照只是记录块存储的列表和文件的大小.下面举例看一下快照的实际使用首先允许改目录创建快照[root@192-168-100-142 security]# hdfs dfsadmin -allowSnapshot /hank/data01Allowing ...原创 2018-06-20 14:09:21 · 265 阅读 · 0 评论 -
Apache hdfs日常操作
配置文件修改core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192-168-100-142:9999</value> //HDFS基本路...原创 2018-06-19 17:16:44 · 453 阅读 · 0 评论 -
apache HDFS HA实例配置
接之前的介绍,这次介绍一下通过zookeeper配置hdfs的HA,下面见实例192-168-100-142 namenode节点(active) ,journal必须为奇数个,分别部署在142,217,225三个节点,ZKFailoverController运行在142,217上面负责控制namenode.192-168-100-217 namenode节点(standby),datanode,...原创 2018-06-25 16:59:22 · 329 阅读 · 0 评论 -
zookeeper使用场景以及配置管理
zookeeper特点:节点可以存储数据可以watch节点,触发相关使用场景1:配置管理这里是数据库配置,当我们应用服务修改配置的时候,只需要修改配置中心,发布,那么应用就会自动监听数据库配置的改动,然后重新读取配置,连接数据库,省去了修改每台业务服务器的复杂度。使用场景2:分布式锁下图就是一个分布式锁的实现,当第一个连接获取通过zk获取第一个节点锁后,下一个节点watch这个节点,当前节点被删除...原创 2018-06-22 16:58:03 · 628 阅读 · 0 评论 -
Apache hdfs恢复到一个namenode
接之前federation和viewfs的实验,现在恢复到一个namenode的环境,恢复步骤很简单1.停止stop-dfs.sh2.恢复core-site.xml<configuration> <property> <name>fs.defaultFS</name> ...原创 2018-06-21 15:40:43 · 261 阅读 · 0 评论 -
Apache hdfs federation和viewFs使用
首先介绍一下federation的作用,每一个hdfs系统,都有一个namenode,namenode存放的都是datanode数据的相关信息,见下图,这个就是只有一个namenode的结构图BackgroundHDFS has two main layers:NamespaceConsists of directories, files and blocks.It supports all th...原创 2018-06-21 15:08:04 · 1375 阅读 · 0 评论 -
CDH HDFS failover 配置
CDH默认的有一个(NN)namenode,一个(SNN)secondary namenode,但是这里要注意的是,SNN并不提供failover的能力 也就是说NN挂了,SNN是不会接管服务的,只能从SNN恢复NN,然后启动NN。CDH也提供了,HDFS failover的能力,但是要依靠zookeeper服务。配置failover需要具备以下几点要求: 1.namenode和standby原创 2017-05-25 16:35:25 · 886 阅读 · 0 评论 -
CDH (cloudeta's distribution for hadoop) 添加节点
CDH (cloudera's distribution for hadoop)是cloudera公司发布的的hadoop,是基于apache hadoop版本研发的,优点是部署方便,管理方便,也是最流行的发行版本,拥有最多的部署案例,今天我们就介绍一下安装使用。上一篇文章介绍了CM得安装,安装好CM后,那么我们就可以安装CDH了,我这里以新增节点的方式介绍一下新增主机信息:1原创 2017-05-24 16:21:33 · 1292 阅读 · 0 评论 -
Cloudera manager install
cloudera manager 是CDH(cloudera's distribution for hadoop)的管理软件,所以在安装CDH之前,我们必须先安装cloudera manager有三种安装方式:a.自动在线安装,服务器需要访问外网,下载资源,优点是简单b.手动安装包安装,比如rpm,yum等等c.手动tarballs安装,和apache安装差不多原创 2017-05-23 17:54:33 · 1559 阅读 · 0 评论 -
CentOS6下CDH5.7.1服务配置
这一篇介绍一下服务配置这里我选择自定义安装配置界面,可以配置每个服务的role在那个节点上运行配置数据库信息,和之前的一样,要预先创建好相关的数据库,然后测试连接服务配置页面开始自动部署服务部署完成...原创 2019-05-21 14:56:32 · 239 阅读 · 0 评论