- 博客(8)
- 收藏
- 关注
原创 大数据基础知识之HIVE
Hive基本概念一、Hive简介1.什么是Hive2.为什么使用Hive3.Hive的特点二、Hive架构基本组成Hive与Hadoop的关系Hive与传统数据库对比Hive的数据存储HIVE一、Hive简介1.什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce...
2019-11-19 22:00:19 215
原创 MapReduce shuffle阶段数据的压缩机制
MapReduce shuffle阶段数据的压缩机制介绍hadoop当中支持的压缩算法hadoop支持的压缩算法各种压缩算法对应使用的java类常见的压缩速率比较1、如何开启压缩:2、使用hadoop的snappy压缩来对数据进行压缩第一步: 代码中添加配置第二步:重新打包测试mr程序介绍在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到redu...
2019-11-18 21:58:19 337
原创 MapReduce编程规范及示例编写
MapReduce编程规范及示例编写一、编程规范mapReduce编程模型的总结八个步骤总体流程MapReduce从读取数据开始到将最终结果写入HDFS经过步骤二、编程实例Mapper以及Reducer抽象类介绍1、 Mapper抽象类的基本介绍2、Reducer抽象类基本介绍WordCount示例一、编程规范mapReduce编程模型的总结事实上MapReduce的开发一共有八个步骤其中m...
2019-11-18 21:31:01 1280
原创 MapReduce程序运行模式
MapReduce程序运行模式本地运行模式集群运行模式本地运行模式(1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上(3)怎样实现本地运行?写一个程序,不要带集群的配置文件本质是程序的conf中是否有mapreduce.framework.name=local以及yarn.resou...
2019-11-18 21:02:29 218
原创 hadoop之MapReduse_02
MapReduse(分布式计算框架)一、MapReduce 并行计算二、Hadoop -MapReduce设计构思三、MapReduce 编程基础pom文件配置(idea开发)一、MapReduce 并行计算HDFS存储数据时对大于128M的数据会进行数据切分,每128M一个数据块,数据块会分散、分布存储到HDFS。MapReduce在进行计算前会复制计算程序,每个数据块会分配一个独立的计算...
2019-11-18 20:56:03 346
原创 hadoop之MapReduse_01
MapReduse(分布式计算框架)什么是计算框架?什么是并行计算框架?什么是分布式计算?Hadoop为什么比传统计算方案快理解MapReduce思想什么是计算框架?是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。什么是并行计算框架?是指为更快的计算某项任务或某项工作,将计算程序分发到多台服务器上,使每个服务器计算总任务的一部分,多台服务...
2019-11-12 14:53:31 644
原创 大数据基础知识之hadoop
Hadoop目录Hadoop的介绍以及发展历史Hadoop三大公司发型版本介绍Hadoop的架构模型(1.x,2.x的各种架构模型介绍)一. Hadoop的介绍以及发展历史Hadoop之父Doug CuttingHadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严...
2019-11-03 10:48:40 629 1
原创 大数据入门经验总结之虚拟机介绍
基础知识介绍 第一篇博客介绍内容1. 什么是虚拟机2. 虚拟机有什么用3. 为什么要用虚拟机一、什么是虚拟机虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。在实体计算机中能够完成的工作在...
2019-10-20 11:57:31 1526 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人