- 博客(3)
- 收藏
- 关注
原创 分布式SQL计算Hive实操
数据库:是存储没有经过任何加工的原始数据的,通过数据库软件实现。数据库有很多表组成,每张表里面又有很多字段,因此能够通过表的二维来表现三维的关系。数据仓库:是为了满足数据分析需要设计的,存储的是经过ETL过程的数据,能够反映相当长一段时间内的历史数据内容,是不同时间点数据库快照的集合。2.数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。4.数据库是为捕获数据而设计,数据仓库是为分析数据而设计。1.数据库是面向事务的设计,数据仓库是面向主题设计的。UPDATE - 更新数据库中的数据。
2024-04-24 21:02:09
289
2
原创 hadoop的基础理解
HDFS的副本机制,HDFS上的每一份文件,默认是存储3个副本。一般来说,这三个副本会存放在多个地方,比如说同一个机房的不同机架,不同机房的机架,避免意外发生遭到团灭。读取数据时,如果读取的DataNode挂掉,则通过Yarn寻找另一台网络拓扑距离最近的机器上的备份数据进行断点续传。Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算能力,写的是SQL,运行的是MapReduce。
2024-04-23 16:20:54
272
1
原创 hadoop大数据入门学习
volume(体积)、variety(种类)、value(价值)、velocity(速度)、veracity(质量)分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。• 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能。YARN(作业调度和集群资源管理的框架):解决资源任务调度。• 狭义上:对海量数据进行处理的软件技术体系。
2024-04-22 21:01:40
350
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人