一、大数据概念
1.大数据定义
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处 理模式,该处理模式就是大数据。
2.大数据的数据量有多大?
目前大数据的数据量主要集中在P/E级别。
数据单位
单位 | 等价关系 |
1Byte | 8bit |
1K(千) | 1024Byte |
1M(兆) | 1024k |
1G(吉) | 1024M |
1T(太) | 1024G |
1P(拍) | 1024T |
1E(艾) | 1024P |
1Z(泽) | 1024E |
1Y(尧) | 1024Z |
1B(布) | 1024Y |
1N(诺) | 1024B |
1D(刀) | 1024N |
3.大数据解决什么问题?
海量数据存储、海量数据运算、海量数据迁移。
4.大数据的特点
大、多、值、快、信
大:数据体量大。
多:数据种类和来源多。
值:低价值密度。
快:数据增长速度快,数据处理速度快,数据获取速度快。
信:数据的准确性高、可信赖度高。
5.大数据的分析步骤
明确分析的目的和思路:把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性。
数据收集:一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查。
数据处理:(E抽取T转换L加载)数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据。
数据分析:数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程
数据可视化: 一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
撰写报告: 数据分析报告其实是对整个数据分析过程的一个总结与呈现。用于决策者参考做出决策。
6.大数据的学习路线
(1)操作系统:linux。
(2)编程语言:sql、python、java。
(3)大数据框架:Hadoop、Hive,Spark,Flink等。
二、计算机组成原理
计算机系统由硬件系统和软件系统两个部分组成。
1.硬件系统
计算机硬件主要由CPU(运算器和控制器)、存储设备、输入输出设备组成。
运算器:负责数据的算术运算和逻辑运算,即数据的加工处理。
控制器:是整个计算机的中枢神经,根据程序要求进行控制,协调计算机各部分组件工作及内存与外设的访问等。
存储器:实现记忆功能的部件,用来存储程序、数据和各种信号、命令等信息,并在需要时提供这些信息。
2.软件系统
软件系统主要是系统软件和应用软件。
系统软件:管理和控制计算机软硬件资源的系统软件 是所有软件的基础和核心,常见的有 Windows操作系统、Mac操作系统、Linux操作系统、Andrid操作系统等。
应用软件:实现各种用户需求的程序,QQ,360安全卫士,音乐播放器,视频播放器,电脑游戏等。
三、编程语言
1.编程语言
编程语言(programming language):可以简单的理解为一种计算机和人都能识别的语言。
作用:让程序员能够准确地定义计算机所需要使用的数据,并精确地定义在不同情况下所应当采取的行动。
2.编程语言的发展历史
低级语言(机器语言、编程语言)->高级语言(C语言、BASIC等)->面向对象(python、java等 )
3.特殊的编程语言
结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。