大数据
Apache-Wang
学习不是灌输,而是点燃
展开
-
hadoop启动时,DataNode没有启动的解决办法
这样的情况一般有2种可能: 1、datanode启动失败。可以像楼上说的倒datanode机器上执行jps命令查看datanode进程是否已经启动。如果jps不能正常显示,可以使用ps -ax | grep hadoop 2、datanode进程已经启动,仍在运行。出现这种情况是由于namenode和datanode中保存的namespaceID不同所引起的。知道的可能情况是启动过集群后,又重新翻译 2017-07-16 17:34:28 · 8791 阅读 · 0 评论 -
zookeeper的工作原理与选举机制
目录:1、工作原理概述2、Fast Leader选举算法(领导者选举)3、Leader与Follower同步数据(原子广播)工作原理概述简单的说一下zookeeper工作的过程,如果对这个过程还不太清楚,或者说对它如何使用等不太清楚的,可以参考一下其他的文章,比如这篇,这一系列的文章将不讲解它如何使用(实际上我也没有在具体项目中使用过,只是简单的配置运行起来大概晓得如何工作而已). zook原创 2017-11-20 08:58:38 · 993 阅读 · 0 评论 -
mapreduce集群的搭建及安装
mapreduce集群的搭建及安装节点分配NameNode node01 主 node02 从DataNode node02 node03 node04zookeeper node02 node03 node04zkfc node01 node02journalnode原创 2017-11-18 12:21:04 · 1566 阅读 · 0 评论 -
mapreduce简介
MapReduce为什么叫MapReducemap和reduce,见名知意MapTask和ReduceTaskMR语义“相同”的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算理解Map 读懂数据 映射为KV模型 并行分布式 计算向数据移动Reduce 数据全量/分量加工 Reduce中可以包含不同的key 相同的Ke原创 2017-11-18 12:16:29 · 560 阅读 · 0 评论 -
hadoop2.x高可用集群的搭建
hadoop2.0集群的搭建使用四台虚拟物理机搭建集群集群各角色的分配 搭zookeeper集群解压 解压zookeeper包修改文件名 修改zookeeper的配置文件,将其重命名修改文件 修改/etc/profile,加上zookeeper的bin目录设置路径 将dataDir目录改为自己规划的目录追加 在文件最后加上zookeepe原创 2017-11-18 11:54:13 · 312 阅读 · 0 评论 -
hadoop2.0的新特性
Hadoop2.0产生背景1、Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题2、HDFS存在的问题 NameNode单点故障,难以应用于在线场景 NameNode压力过大,且内存受限,影响系统扩展性3、MapReduce存在的问题 JobTracker访问压力大,影响系统扩展性 难以支持除MapReduce之外的计算框架,比如S原创 2017-11-18 11:47:09 · 1900 阅读 · 0 评论 -
hadoop的搭建
hadoop集群搭建本次搭建的是hadoop-2.6.5,该版本的兼容性较好hadoop的集群搭建有三种方式: 单节点 伪分布式 分布式单节点在一台机器上运行的hadoop,搭建配置简单,这里不详细展开伪分布式安装软件 jdk安装,配置环境变量 vi /etc/profile免秘钥 ssh免秘钥(官网上的写法) ssh localh原创 2017-11-18 11:40:48 · 231 阅读 · 0 评论 -
hadoop入门
Hadoop 入门思考题如何在1T的大文件中找出重复的单词 分治法 分布式 分而治之:并行计算 计算向数据移动 用哈希进行分类,注意哈希碰撞 集群思想 并行:提升速度的关键 分布式运行 计算与数据在一起 计算向数据移动hadoop介绍 hado原创 2017-11-18 11:11:14 · 225 阅读 · 0 评论 -
nginx
现代互联网架构请求过程 1. 建立连接 2. 计算资源lvs+nginx架构 lvs将请求快速转发到nginx上,不用建立三次握手阶段,处于第四层 nginx处于第七层,将用户请求进行解读,并将其转发到实际处理的服务器上为什么要使用nginx 技术新,采用异步,非阻塞,速度快 处于需求转发,不需要使用web容器,仅需要web server,损耗低原创 2017-11-18 10:52:35 · 249 阅读 · 0 评论 -
Spark简介
1.1 Spark简介与发展 大部分企业习惯用Hadoop去分析数据集,选择Hadoop框架的原因是由于它的编程基于MapReduce编程模型,于此同时,它提供了一个scalable(扩展性)、flexible(兼容性) 、fault-tolerant(容错性) 、cost effective(经济有效)的计算解决方案。就查询和运行之间的等待时间而言,当前考虑的主要问题是去维护处理大数据集的速度原创 2017-11-18 10:26:37 · 446 阅读 · 0 评论 -
HADOOP学习之路
http://blog.csdn.net/column/details/15856.html转载 2017-07-17 08:50:02 · 1134 阅读 · 0 评论 -
【MR】MapReduce 1 与 MapReduce 2(YARN)框架对比
这里转载一篇写的好博文,供大家参考和学习 http://blog.csdn.net/yangjjuan/article/details/74530255?ref=myread一,新旧MapReduce API比较 (1)新的API倾向于使用抽象类,而不是接口,因为这更容易扩展。如在新的API中,Mapper 和Reducer现在都是抽象类。接口只有方法声明而没有方法实现,且要求所有实现类(不包转载 2017-07-17 08:45:28 · 494 阅读 · 0 评论 -
动态优化 Hadoop 集群的高性能分析
动态优化 Hadoop 集群的高性能分析简介:这是我在阅读文献中读到的一篇关于大数据高性能分析的文章,写的很不错,自己根据自己的理解翻译了一下,希望能和大家分享。1. 摘要随着企业收集反馈信息到每一个可能的细节, 数据存储库都在充斥着信息量。为了获取有价值的信息, 应使用复杂的统计分析来处理这些数据。传统的分析工具、现有的统计软件和数据管理系统发现对大型数据库进行深入分析具有挑战性。用...翻译 2018-03-20 08:48:08 · 847 阅读 · 0 评论