大数据
white先生
分享个人学习成长的经验总结或笔记。如造成侵权实属无意,深表歉意,烦请告知。
[email protected]
展开
-
Hadoop简介与环境搭建(独立模式/伪分布式)
Hadoop简介与环境搭建Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。其中它有两个核心: - HDFS( 存储功能)大规模数据集(支持节点扩展)简单一致性模型(一次写入多次读取)流式数据访问(对数据进行批量处理,而不是用户交互处理)硬件错误(有很强的容错能力)原创 2017-05-25 18:07:31 · 772 阅读 · 0 评论 -
大数据平台(二)——命令行编译打包自己的MapReduce程序
写在前面博主的运行环境为Hadoop-2.7.3,集群模式(因硬件简陋,只开了两台虚拟机)在此之前Java运行环境,Hadoop环境已搭好。本文通过WordCount实例向大家分享,将自己编写的mapreduce程序通过编辑在命令行模式下在Hadoop集群下运行。编译环境配置因为mapreduce程序的运行需要依赖Hadoop自带的一些jar包, 例如:import org.apac...原创 2018-04-19 15:25:04 · 623 阅读 · 0 评论 -
基于Hadoop的数据仓库Hive 基础知识
基于Hadoop的数据仓库Hive 基础知识Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1.1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriente...转载 2018-05-09 14:53:47 · 333 阅读 · 0 评论 -
Hadoop理论之HDFS
1.HDFS( 存储功能)特点:大规模数据集(支持节点扩展)简单一致性模型(一次写入多次读取)流式数据访问(对数据进行批量处理,而不是用户交互处理)硬件错误(有很强的容错能力)权限问题(写入者就是拥有者)。安全性,不是很高。2.HDFS组成:namenode datanode 以及secondarynamenode,edits,fsimage等namenode(管理者):存储为数据的元数据(me...原创 2018-05-06 17:36:49 · 212 阅读 · 0 评论 -
Hadoop理论之MapReduce
1.MapReduce的主要功能: 1)数据划分和计算任务调度:系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动 调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并 负责Map节点执行的同步控制。 2)数据/代码互定位:为了...原创 2018-05-06 21:14:00 · 582 阅读 · 0 评论 -
Hive动手实践
一 Hive是什么?为什么会出现?解决了什么问题?Hive它不是一个数据库,它是一个数据仓库。它只是提供了我们通过类SQL语句访问存储在HDFS上的数据的一个接口。它借用了HDFS的可拓展、高可用、海量数据存储的优势(真正的数据存储在HDFS上),同时借用MapReduce计算框架的计算功能,并将HDFS上文件和Hive表的映射关系存储在关系型数据库中。通过解析类SQL语句和XML驱动的方式,调用...原创 2018-05-20 16:21:29 · 331 阅读 · 0 评论 -
MapReduce的Shuffle过程详解
Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。Red...转载 2018-05-15 10:50:45 · 2477 阅读 · 0 评论