大数据套件初识

blissnmx

于 2022-11-27 22:29:40 发布

阅读量1k

点赞数 1

分类专栏：大数据文章标签：大数据 hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blissnmx/article/details/128071237

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

Hadoop
Hive
Spark

Hadoop

hdfs

分布式文件存储系统

namenode：作为master，负责整个系统的元数据的存储，管理整个集群数据的block分配和调度
datanode：数据节点，存放数据
- block数据存储的最小粒度，默认128MB一个
- 数据副本：以block为粒度进行副本备份，可配置

MapReduce

计算系统

map：一段计算函数（代码），将一个任务拆分为多个map，放在不同的计算节点，分开执行，并将执行结果存储落盘
reduce：将多个map执行的结果从磁盘中读取，并进行聚合、汇总，再讲最终结果放入hdfs

Yarn

作为Hadoop的资源调度器，负责系统资源cpu等的资源调度工作

Hive

基于Hadoop的一种大数据管理框架，用来进行数据提取、转化、加载，将hadoop的一些文件语义操作通过类sql实现，并可通过类sql完成一些计算任务，计算任务可通过不同计算框架执行（原生mapreduce、spark、Tez）；

hive可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转化为MapReduce任务进行运行

Spark

基于hadoop的MapReduce任务，做了一系列优化，将计算任务通过有向无环图进行重新整理，并将中间结果放入内存，提升了计算效率；

Sqoop

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库*（例如： MySQL ,Oracle ,Postgres等）*中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Superset

可视化图标工具，类似于grafna

库中。

Superset

可视化图标工具，类似于grafna

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据套件初识

基于Hadoop的一种大数据管理框架，用来进行数据提取、转化、加载，将hadoop的一些文件语义操作通过类sql实现，并可通过类sql完成一些计算任务，计算任务可通过不同计算框架执行（原生mapreduce、spark、Tez）；基于hadoop的MapReduce任务，做了一系列优化，将计算任务通过有向无环图进行重新整理，并将中间结果放入内存，提升了计算效率；hive可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转化为MapReduce任务进行运行。
复制链接

扫一扫

专栏目录

blissnmx CSDN认证博客专家 CSDN认证企业博客

码龄12年

78: 原创

6万+: 周排名

6万+: 总排名

10万+: 访问

: 等级

1353: 积分

351: 粉丝

123: 获赞

10: 评论

132: 收藏

私信

关注

热门文章

分类专栏

算法 27篇
JVM 6篇
数据库 7篇
大数据 1篇
缓存 5篇
云计算之CDN系列 1篇
kubernetes 1篇
k8s 1篇
调度任务 1篇
web服务器 4篇
svn 1篇
dubbo 1篇
maven 1篇
java开发 7篇
日志分析 2篇
nginx+lua 2篇
运维技术 4篇

最新评论

排序算法-快速排序
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
算法学习 day7
blissnmx: 四数之和： [code=java] public List<List<Integer>> fourSum(int[] nums, int target) { List<List<Integer>> res = new ArrayList<>(); //题目提示可以任意顺序，则可以通过排序，来优化性能，减少不必要的计算 Arrays.sort(nums); for (int i = 0; i < nums.length; i++) { if(nums[i]>0 && nums[i]>=target) return res ; //相邻相同，跳过 if(i>0 && nums[i] == nums[i-1]) continue; //固定第二个数 for(int j = i+1 ;j<nums.length ; j++){ //相邻两数相同，则跳过 if(j>i+1 && nums[j] == nums[j-1] ) continue; //第一个数和第二个数之和大于target，且大于0，则跳过 if(nums[i]>0 && nums[j]>0 && nums[i]+nums[j]>target) continue; //判断第三个和第四个数，使用双指针 int l = j+1 ,r = nums.length-1 ; while (l<r){ int v = nums[i] + nums[j] + nums[l] +nums[r]; if(v > target){ r-- ; }else if(v<target){ l++; [/code]
docker基础知识架构图
Tisfy: 我唯一能做的，就只有把这个帖子顶上去这件事了。
负载均衡器个人总结
不正经的kimol君: 快进我的收藏夹
使用nginx+lua，对现有系统进行限流降级，保证系统稳定性
blissnmx 回复牛麦康纳: 是这样的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。