自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 大数据原理与技术(八):数据仓库Hive

Hive是基于Hadoop的数据仓库软件,可与将结构化的数据文件映射为数据库表,并提供类SQL查询功能。Hive将SQL语句转化成MapReduce任务进行处理,适用于大型分布式数据集的查询管理。文章目录一、Hive概述1.Hive简介和应用2.Hive的特性3.Hive与传统数据仓库的区别二、Hive的架构和数据存储1.Hive的架构原理2.Hive的存储模型一、Hive概述1.Hive简介和应用(1)Hive是什么Hive是基于Hadoop的数据仓库软件,某种程度上可以看作是用户编程接口,本身

2021-08-18 17:02:13 902

原创 大数据原理与技术(七):资源管理系统YARN

Hadoop使用Apache Hadoop YARN(Yet Another Resource Negotiator)作为通用资源管理系统,可为上层应用提供统一的资源管理和调度。除了MapReduce,YARN还可以支持其他编程计算框架,如Spark、Storm等,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了诸多好处。文章目录一、YARN的概述与应用1.YARN的定义2.YARN的特点3.YARN的应用场景二、YARN架构设计思路1.MapReduce的设计缺陷2.YARN设计思路三、YAR

2021-08-08 17:47:00 2025

原创 大数据原理与技术(六):大数据离线计算框架MapReduce

MapReduce是Hadoop的核心组件之一,是一种并行编程模型,用于大规模数据集(TB级别)的并行计算。MapReduce框架将并行计算抽象成为两个函数:Map和Reduce。Hadoop MapReduce是基于HDFS的分布式编程框架,可以使没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。文章目录一、概述1.MapReduce概述2.Map函数和Reduce函数二、MapReduce的工作流程1.工作流程概述2.MapReduce的各个执行阶段3.Shuffle过程详解总

2021-08-05 20:28:05 1697

原创 大数据原理与技术(五):分布式数据库HBase

HBase是基于谷歌Bigtable开发的开源分布式数据库,具有高可靠、高性能、面向列、可伸缩等特点。HBase一般运行在HDFS上,主要用来存储非结构化和半结构化数据。HBase通过水平扩展的方式实现大表数据(表的规模可以达到数十亿行以及数百万列)的存储,对大表数据的读、写访问达到实时级别。文章目录一、HBase概述1.HBase简介2.HBase与传统关系型数据库的区别3.HBase的应用场景二、HBase的相关概念1.数据模型概述2.HBase的数据模型3.数据坐标4.概念视图5.物理视图6.行存储

2021-07-31 12:33:40 2768 4

原创 大数据原理与技术(四):分布式文件系统HDFS

大数据时代海量数据的存储对文件系统的存储容量、数据吞吐率提出了很高的要求。

2021-07-21 18:31:50 874

原创 大数据原理与技术(三):Hadoop安装与使用

在开始具体操作之前,需要首先选择一个合适的操作系统。尽管Hadoop本身可以运行在Linux、Windows以及其他一些类UNIX系统上,但是Hadoop官方真正支持的作业平台只有Linux。这里选择Linux作为系统平台,来演示在计算机上如何安装Hadoop、运行程序并得到最终结果。文章目录1.Linux系统的安装2.创建Hadoop用户3.安装Java环境4.SSH登录权限设置5.安装单机模式Hadoop6.安装伪分布式Hadoop1.Linux系统的安装选择免费的Ubuntu桌面版作为安装的操作

2021-07-16 21:02:53 1432 4

原创 大数据原理与技术(二):Hadoop大数据处理平台

Hadoop是开源的、可运行在大规模计算机集群上的分布式计算平台,它可以完成海量数据的存储与处理分析,被公认为行业大数据标准开源软件,在行业内得到了广泛的应用。文章目录一、 Hadoop概述1. Hadoop简介2. Hadoop的特性3.Hadoop的版本二、Hadoop生态系统1.Hadoop存储系统2.Hadoop计算框架3.Hadoop数据仓库4.Hadoop数据转换与日志处理5.Hadoop应用协调与工作流6.大数据消息订阅一、 Hadoop概述1. Hadoop简介Hadoop是由Apa

2021-07-14 19:47:46 2485 2

原创 大数据原理与技术(一):大数据概述

大数据原理与技术(一):大数据概述在谈大数据之前,笔者想说点我与大数据的缘分,去年疫情期间。学校与华为公司共建了一个ICT学院,笔者学习了大数据的相关课程,了解到不少关于大数据的知识。写大数据文章的初衷就是把自己的心得体会与大家分享分享,由于笔者知识有限,文章有错误的地方还请大家不吝指正,感谢大家。文章目录大数据原理与技术(一):大数据概述一、 大数据时代的到来1. 大数据时代背景2. 大数据时代技术支撑3. 大数据的发展历程二、大数据的概念1. 什么是大数据2. 大数据来源3. 大数据的价值三、大数据

2021-07-12 21:47:57 1541 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除