说说大数据

最新推荐文章于 2024-09-02 19:02:16 发布

chenzuoli

最新推荐文章于 2024-09-02 19:02:16 发布

阅读量312

点赞数

分类专栏： hive 数据仓库大数据文章标签： big data hbase hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenzuoli/article/details/122509899

版权

大数据同时被 3 个专栏收录

15 篇文章 1 订阅

订阅专栏

13 篇文章 2 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

title: 说说大数据
date: 2022-01-14 22:47:21
tags: [data]
categories: big data

大数据，我们现在应该听的很多，那么应该掌握哪些知识才算入门了大数据呢？如何去学习它呢？

今天我会用5年大数据经验，通过通俗易懂的语言，来给大家普及这方面的知识。

首先，分2块：分布式计算和分布式存储。计算离不开存储，因为你计算的数据是存储在不同位置的，你计算的中间结果和最终结果也是要存储在不同位置的。

分布式存储

2003年google发布三篇论文，第一篇，分布式文件存储系统GFS（Google File System）,这就是hadoop hdfs的前身，它是一个可扩展的分布式文件存储系统，用于大型的、分布式的、可扩展的、对大量数据进行访问的应用。运行于普通的廉价的硬件上，提供容错服务，可以给大量用户提供稳定的总体性能较高的服务。

发展至今，我们现在所用到的大数据存储系统，大概有一半是基于hdfs构建的，比如Hive（关系型数据库）、Hbase（非关系型数据库），后面我会去讲讲这些组件的一些基本概念，一个个讲，目标是将我这几年工作学习中用到的组件都介绍一遍，还有遇到的一些基本问题，及如何正确地去使用它们。

你要学习的是hdfs、hive、hbase的基本概念和基本使用。

分布式计算

2004年第二篇论文，分布式计算系统MapReduce，分布式批处理计算系统MapReduce是一个编程模型，通过将一个任务分拆成多个并行处理的任务，达到分布式计算的目的。

以这种模式编写的程序，可以在大型集群上并行地调度、运行，无需程序编写者考虑分布式计算底层的处理逻辑、资源管理、机器之间的通信等细节问题。

目前基于MapReduce思想，实现的计算引擎有很多，hive、spark、flink算是目前使用比较广泛的计算框架。

大家要学习分布式计算，hive是你必须要掌握的分布式数据库，通过hive sql实现分布式计算。

好了，今天就到这里，下期更新hive的知识。

Keep reading, Keep writing, Keep coding.

欢迎关注我的微信公众号，比较喜欢分享知识，也喜欢宠物，所以做了这2个公众号：
程序员写书

喜欢宠物的朋友可以关注：【电巴克宠物Pets】

一起学习，一起进步。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
说说大数据

大数据，我们现在应该听的很多，那么应该掌握哪些知识才算入门了大数据呢？如何去学习它呢？
复制链接

扫一扫

专栏目录

chenzuoli CSDN认证博客专家 CSDN认证企业博客

码龄8年

76: 原创

7万+: 周排名

3万+: 总排名

13万+: 访问

: 等级

937: 积分

90: 粉丝

101: 获赞

31: 评论

246: 收藏

私信

关注

热门文章

分类专栏

python 10篇
图片处理 1篇
乐知付 1篇
计算机 1篇
windows 1篇
flask 1篇
docker 3篇
linux 5篇
数据仓库 13篇
调度系统 11篇
元数据管理 4篇
datahub 3篇
大数据 15篇
clickhouse 3篇
hadoop 2篇
olap 1篇
个人总结 3篇
实时数仓 12篇
shell 2篇
Airflow 10篇
笔记 5篇
hive 2篇
flink 2篇
flink-cdc 1篇
azkaban 1篇

最新评论

在线下载Docker Hub镜像，打成tar包下载
堕落颓废少爷: https://blog.csdn.net/ylz_yg/article/details/129249139
浅谈flink-cdc的使用
ETLCloud数据集成社区: 文章很详细，感谢博主讲解，我们企业最近新出了ETLCloud数据集成工具，如果是想要快速实现数据库CDC操作，ETLCloud也能实现flink cdc的效果，在增量同步、断点续传、全量同步的表现都很好，也支持全增量一体化同步，欢迎博主去体验下，也可以加入我们的社区，一起交流下，提提不同的建议！！
浅谈flink-cdc的使用
kukoray: flinkcdc 2.x 对于全量同步是无锁的嘛？还是说只有增量同步是无锁的。
如何理解airflow中的execution_date
幻y: 盲人说象
在线下载Docker Hub镜像，打成tar包下载
chenzuoli: 估计作者关闭了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

chenzuoli 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。