hadoop
忧郁之风
这个作者很懒,什么都没留下…
展开
-
大数据技术之Hadoop入门
大数据技术之Hadoop入门 一、大数据概论 大数据概论 大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。 自我认为:大数据就是在短时间内快速产生大量**多种多样的有价值**的信息。 大数据的特点 大量 ...转载 2019-07-16 15:48:22 · 180 阅读 · 0 评论 -
大数据技术之Hadoop入门(第二篇)
大数据技术之Hadoop入门(第二篇) 继续上篇文章Hadoop入门 今天来简单的说一下HDFS中的SecondaryNameNode 副节点 和持久化 在上篇文章中说过了Secondary NameNode(Snn 后面都写作SNN):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照 一、SNN SNN的主要工作 (1)Secondary NameNode询问NameN...转载 2019-07-16 16:01:31 · 126 阅读 · 0 评论 -
大数据技术之Hadoop入门(第三篇)伪分布式和完全分布式的搭建
继Hadoop入门第二篇之后,今天我们进行一下Hadoop运行环境的搭建 三、Hdoop运行环境搭建 1. 首先要虚拟机搭建 在创建Hadoop运行环境前我们先要有一台Linux,所以打开虚拟机创建一台Linux。 这里我选择了大小不到400M的CentOS-6.5-x86_64-minimal 2、 设置虚拟机网络模式 2.1 查看自己的网络IP子网掩码等信息 这里我们主要更改三个主要文...转载 2019-07-16 16:13:58 · 293 阅读 · 0 评论 -
大数据之Hadoop中HDFS客户端操作(第四篇)
HDFS客户端操作 继上篇Hadoop入门第三篇后,我们今天来说一下HDFS客户端的操作。 准备工作: 这里我们先用伪分布式来说一下,所以我们要先有一个伪分布式。 1、HDFS客户端环境准备 1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:C:\Study\tools)。 2)配置环境变量 1)配置系统环境变量 1.2.1.1 配置jdk的环境变量 一...转载 2019-07-16 16:25:46 · 328 阅读 · 0 评论 -
大数据之Hadoop生态圈中的Map Reduce学习(第五篇 )
大数据之MapReduce学习(简易见解) 前言 继我们上篇讲了HDFS的客户端操作之后,我们今天来分享一下Hadoop生态圈中第二个重要组成部分——MapReduce。 一、MapReduce入门 首先我们要知道MapReduce是在Hadoop生态圈中是个什么位置能做什么。 1.1MapReduce定义 MapReduce是一种分布式运算程序的编程模型,是用户开发“基于hadoop的数据分...转载 2019-07-17 09:58:22 · 168 阅读 · 0 评论 -
大数据技术之Zookeeper概述(第六篇)
前言 传统系统的问题: 系统中的单点的风险,单点崩溃,整个系统就不能用了。 传统单点解决方案:利用协调软件进行双击热备。 传统主备协调方案的认识: 协调软件本身不是分布式的,只能配置一个。 只能一个主一个备 初识Zookeeper 1.概述 1.1 Zookeeper定义 Zookeeper是google的Chubby的一个开源实现 Zookeeper:是Apache组织下的高性能,分布式的应用...转载 2019-07-17 10:28:00 · 147 阅读 · 0 评论