关闭

Hadoop之HA高可用性

HA存在的背景: HA的工作原理图: HDFS HA高可用性 1、active namenode对外提供服务和standby namenode时刻待机准备的 2、保证两个namenode任何时候都是元数据同步的 3、standby namenode同样需要去读取fsimage和edits文件 -》edits变化后的数据文件同样也是需要实时...
阅读(6) 评论(0)

Hadoop之Zookeeper

什么是Zookeeper ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、 小猪(Pig)  的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei  等项目中都采用到了Zookeeper。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它使用的是类似于文件系统那样的树形数据结...
阅读(11) 评论(0)

MapReduce之combine

Combine优化机制简介  MapReduce框架的运作基于键值对,即数据的输入是键值对,生成的结果也是存放在集合里的键值对,其中键值对的值也是一个集合,一个MapReduce任务的执行过程以及数据输入输出的类型如下所示,这里我们定义list表示集合:    map(K1, V1) -> list(K2, V2)    combine(K2, list(V2)) -> list(K2,...
阅读(14) 评论(0)

MapReduce之shuffle

彻底理解MapReduce shuffle过程原理  MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduc...
阅读(4) 评论(0)

eclipse在window环境下配置hadoop插件

1、hadoop-2.5.0.tar.gz解压到windows本地 2、windows下安装JDK和eclipse -》JAVA_HOME -》PATH 3、解压maven到windows本地 4、在windows本地新建一个m2命名的目录 5、将repository仓库放到m2目录下 6、到maven目录下的conf目录中找到settings.xml文件拷贝到m2目录下 7、回到...
阅读(27) 评论(0)

Linux克隆虚拟机

1、注意克隆先关闭所有正在运行的服务,然后关机 2、虚拟机-》管理-》克隆 -》虚拟机当前状态 -》创建完整克隆 -》修改名称以及本地磁盘存放的位置 -》等待克隆完成 3、克隆完成之后进入新的虚拟机进行配置更改 -》IP、主机名、、映射、mac地址等等信息都要修改,修改后建议重启下系统 4、建议克隆两台即可,加上原来的那台组成三台模拟一个分布式环境就可以了 -》不需要克隆太多 ...
阅读(81) 评论(0)

SSH免密码登陆配置

SSH免密码登录         rm -rf ./*   删除 .ssh目录下的这个文件  known_hosts 1、$ ssh-keygen -t rsa -》-t代表指定加密类型 -》rsa代表加密类型中的一种 -》可以直接ssh-keygen -》因为系统默认的就是rsa类型 2、发送 $ ssh-copy-id bigdata-01.yushu.com 3、一般不建议...
阅读(15) 评论(0)

Hadoop之历史服务器与日志聚合和文件权限

1、历史服务器是一个轻量级的 2、 配置mapred-site.xml文件,指定两个参数 mapreduce.jobhistory.address bigdata-01.yushu.com:10020 mapreduce.jobhistory.webapp.address bigdata-01.yushu.com:19888 3、启动: $ sbin/mr-job...
阅读(44) 评论(0)

Hadoop之 NameNode---DataNode---SecondaryNameNode

1、格式化namenode之后会生成元数据文件,文件系统会有一个根目录 2、元数据存放在namenode内存中(启动以后) 3、namenode在启动之前,元数据同样会在本地的文件系统中 4、fsimage元数据镜像文件-》存储元数据,namenode在启动的时候会读取fsimage文件 5、用户对于HDFS文件系统的任何行为操作都会导致元数据发生变化-》内存肯定会知道 6、对于HDFS...
阅读(19) 评论(0)

Hadoop环境部署

1、按照官方的文档进行配置 http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/SingleCluster.html 2、上传下载工具lrzsz 使用yum进行在线的安装:yum install lrzsz 命令:上传rz、下载sz 3、在试验环境下为了方便起见,可以为普通用户设置比较大的管理权限...
阅读(15) 评论(0)

Linux中基本的常用命令

1、命令的格式: 命令本身 【-可选项】【操作的对象】 ls -l /opt 由于单个命令表示一种功能,那么使用不同的选项用来区分不同的功能 某些命令不需要加任何的选项就可以执行,也不需要操作对象 命令之间以空格隔开 2、命令:pwd -》作用:显示当前用户所在的路径,绝对路径显示 3、命令:clear -》作用:清楚屏幕,刷新屏幕 -》快捷键:ctrl+l 同样的清除屏幕的功...
阅读(11) 评论(0)

Linux基本环境设置

Linux基本环境设置     1、ifconfig -》系统管理型命令,查看系统的网络基本信息 2、虚拟机的网络连接方式 -》桥接 -》自动获取IP地址,与本机物理网络有关联 -》可以理解为虚拟机的网络和本机的物理网络使用的是一条网线 -》NAT(建议使用NAT) -》在虚拟机中创建一个虚拟的网络空间,虚拟出一个网络来连接 -》VMnet8 -》可以去指定一个静态IP 3、...
阅读(51) 评论(0)

大数据之初体验

大数据的基本概念:大数据 (巨量数据集合(IT行业术语));大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的基本特征: 大数据的企业架构: 大数据的核心理念:分而治之,比如10TB的数据给一台机器...
阅读(16) 评论(0)

Hadoop HA 机制学习

https://cloud.tencent.com/community/article/282177...
阅读(25) 评论(0)

IBM Cognos 11链接Hadoop最佳实践

http://bigdata.evget.com/post/1928.html...
阅读(15) 评论(0)

三位一体的工业大数据综述

http://bigdata.evget.com/post/1977.html...
阅读(16) 评论(0)
    个人资料
    • 访问:327次
    • 积分:136
    • 等级:
    • 排名:千里之外
    • 原创:13篇
    • 转载:3篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档