说说大数据

13 篇文章 2 订阅
2 篇文章 0 订阅

title: 说说大数据
date: 2022-01-14 22:47:21
tags: [data]
categories: big data

大数据,我们现在应该听的很多,那么应该掌握哪些知识才算入门了大数据呢?如何去学习它呢?

今天我会用5年大数据经验,通过通俗易懂的语言,来给大家普及这方面的知识。

首先,分2块:分布式计算和分布式存储。计算离不开存储,因为你计算的数据是存储在不同位置的,你计算的中间结果和最终结果也是要存储在不同位置的。

分布式存储

2003年google发布三篇论文,第一篇,分布式文件存储系统GFS(Google File System),这就是hadoop hdfs的前身,它是一个可扩展的分布式文件存储系统,用于大型的、分布式的、可扩展的、对大量数据进行访问的应用。运行于普通的廉价的硬件上,提供容错服务,可以给大量用户提供稳定的总体性能较高的服务。

发展至今,我们现在所用到的大数据存储系统,大概有一半是基于hdfs构建的,比如Hive(关系型数据库)、Hbase(非关系型数据库),后面我会去讲讲这些组件的一些基本概念,一个个讲,目标是将我这几年工作学习中用到的组件都介绍一遍,还有遇到的一些基本问题,及如何正确地去使用它们。

你要学习的是hdfs、hive、hbase的基本概念和基本使用。

分布式计算

2004年第二篇论文,分布式计算系统MapReduce,分布式批处理计算系统MapReduce是一个编程模型,通过将一个任务分拆成多个并行处理的任务,达到分布式计算的目的。

以这种模式编写的程序,可以在大型集群上并行地调度、运行,无需程序编写者考虑分布式计算底层的处理逻辑、资源管理、机器之间的通信等细节问题。

目前基于MapReduce思想,实现的计算引擎有很多,hive、spark、flink算是目前使用比较广泛的计算框架。

大家要学习分布式计算,hive是你必须要掌握的分布式数据库,通过hive sql实现分布式计算。

好了,今天就到这里,下期更新hive的知识。


Keep reading, Keep writing, Keep coding.

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
程序员写书

喜欢宠物的朋友可以关注:【电巴克宠物Pets】
电巴克宠物

一起学习,一起进步。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

chenzuoli

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值