大数据开发概论
大数据定义
大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。(常规软件工具指的是:Excel,数据库)
大数据概念
- 大数据处理的数据量有多大?
下表体现了对于大厂,左侧的数据是需要长期维护的数据量,右侧的数据是每天接收的数据量,接收的数据量又会筛选出一小部分进行处理或存储。大厂的集群通常由好几千台数据组成。
对于核心数据,通常会存储3份。
-
目前的大数据应用主要集中在PB和EB级别。
-
大数据要解决的问题?
- 海量数据存储
- 现在有一个2T的文件需要存储,硬盘的总空间是满足的,但是每个磁盘空间不足以单独存储。
- 解决方式:分布式存储
- 海量数据运算
- 追求数据可以被计算,以及计算的速度和效率。
- 海量数据存储
-
大数据的特点
-
大数据分析的业务步骤
-
大数据任务
-
大数据岗位需求
-
大数据学习路线
1. Linux系统
主要是在Linux系统上搭建大数据框架。
2. 编程语言
很多公司用Java和Python代替Scala,Python、SQL>Java>Scala。
大数据只是一个理念和思维,这种语言用什么描述都可以。
3. 大数据框架
打勾的是目前可用的框架:
核心框架:Hadoop、Hive、Spark、Flink、Kafka、HBase
4. 离线项目、实时项目
计算机组成原理
软件和硬件概述
硬件
计算机硬件主要由CPU(运算器和控制器)、存储设备、输入输出设备组成。
大数据从业者的电脑主要考虑的是CPU和内存大小,或者说主板中最好有内存槽
硬盘最好用固态硬盘,而非机械硬盘,固态硬盘最大的好处是使用虚拟机的时候速度很快
网卡,显卡不重要
软件
计算机的软件分为系统软件和应用软件,所谓的图片,图标都是系统软件虚拟出来的结果。
操作系统是安装在裸机上的,是直接运行在"裸机"上的最基本的系统软件。
将消息发给对方的过程,通过应用软件把数据发给操作系统,操作系统完成了将数据传输给网卡,网卡通过网线将数据传输到对方的电脑中,从硬件里面将数据提取到操作系统,操作系统将数据发给应用软件。
操作系统
Unix操作系统是所有操作系统的前身,Windows主要是家用和工作用,Linux主要用于服务器(机房),Android、HarmonyOS主要是用于手机。