自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 分布式SQL计算Hive实操

数据库:是存储没有经过任何加工的原始数据的,通过数据库软件实现。数据库有很多表组成,每张表里面又有很多字段,因此能够通过表的二维来表现三维的关系。数据仓库:是为了满足数据分析需要设计的,存储的是经过ETL过程的数据,能够反映相当长一段时间内的历史数据内容,是不同时间点数据库快照的集合。2.数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。4.数据库是为捕获数据而设计,数据仓库是为分析数据而设计。1.数据库是面向事务的设计,数据仓库是面向主题设计的。UPDATE - 更新数据库中的数据。

2024-04-24 21:02:09 289 2

原创 hadoop的基础理解

HDFS的副本机制,HDFS上的每一份文件,默认是存储3个副本。一般来说,这三个副本会存放在多个地方,比如说同一个机房的不同机架,不同机房的机架,避免意外发生遭到团灭。读取数据时,如果读取的DataNode挂掉,则通过Yarn寻找另一台网络拓扑距离最近的机器上的备份数据进行断点续传。Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算能力,写的是SQL,运行的是MapReduce。

2024-04-23 16:20:54 272 1

原创 hadoop大数据入门学习

volume(体积)、variety(种类)、value(价值)、velocity(速度)、veracity(质量)分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。• 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能。YARN(作业调度和集群资源管理的框架):解决资源任务调度。• 狭义上:对海量数据进行处理的软件技术体系。

2024-04-22 21:01:40 350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除