大数据基本概论
大数据概念
由大数据研究专家维克托·迈尔-舍恩伯格博士提出--"世界的本质是数据"!
数据在大多数人头脑中的第一反应就是一串数字,例如123、456、¥123、$456等。其实数字是最简单的一种,是一种较为狭义的理解。广义的理解认为数据的种类很多,例如文本、图形、图像、音频、视频、学生档案等等,这些都是数据。 可以对数据作出如下定义:描述事务的符号记录称为数据。 在日常生活中,人们可以直接描述事务
什么是大数据呢?
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处 理模式,这种处理模式就是大数据 !
在实际工作与生活中,大数据主要解决海量数据的存储、海量数据的计算与海量数据的迁移之间的问题
大数据应用场景
大数据处理的数据量有多大? 目前的大数据应用,数据量主要集中在PB/EB级别...
常用单位等价表:
大数据主要为我们生活赋能,应用于我们所处的人工智能时代 / 数字化时代。
大数据特点
5v---volume(体积) variety(种类) value(价值) velocity(速度) veracity(准确)
1.大:数据体积大,存储的数据量庞大
2.多:数据的种类与来源多,各种结构化、非结构化的数据,来源于各种日志、音频、视频等
3.值:低价值密度,指在海量数据提取对于我们有用的数据价值密度
4.快:速度快,指数据增长速度快,处理速度快,获取速度快
5.信:数据的质量,结果准确,可以信赖的
大数据分析业务步骤
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:
明确分析的目的思路
- 把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性
数据收集
- 一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查
数据处理
- 数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据
数据分析
- 数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程
数据展现
- 一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
数据展现
- 一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
撰写报告
- 数据分析报告其实是对整个数据分析过程的一个总结与呈现。用于决策者参考做出决策
大数据学习路线
1.了解操作系统
2.熟悉编程语言
3.学习数据框架
4.项目经验的累积
计算机组成
计算机(computer)俗称电脑,是现代一种用于高速计算的电子机器,可以进行数值计算,又可以进行逻辑 判断,还具有存储记忆功能,且能够按照程序的运行,自动、高速处理数据,通俗理解就是一个存储和计算 数据的电子设备 计算机主要由硬件系统和软件系统两部分组成
硬件系统
计算机硬件主要由CPU(运算器和控制器)、存储设备、输入输出设备组成。
从ENIAC(世界上第一台计算机)到当前最先进的计算机,硬件系统的设计采用的都是 冯·诺依曼体系结构
运算器: 负责数据的算术运算和逻辑运算,即数据的加工处理。
控制器: 是整个计算机的中枢神经,根据程序要求进行控制,协调计算机各部分组件工作及内存与外设的访问等。
存储器: 实现记忆功能的部件,用来存储程序、数据和各种信号、命令等信息,并在需要时提供这些信息。
软件系统
软件系统主要有操作系统与各种应用软件组成
OS(Operating System)- 操作系统:
一种控制计算机操作并指导程序处理的软件,它通过分配内存中的存储空间和控制输入输出功能来实现这一目的。
没有操作系统,计算机无法正常运行,它是计算机与应用软件的桥梁,起着承上启下的作用
下列常用的操作系统:
编程语言
什么是编程语言呢?
编程语言(programming language): 可以简单的理解为一种计算机和人都能识别的语言
作用: 让程序员能够准确地定义计算机所需要使用的数据,并精确地定义在不同情况下所应当采取的行动
编程语言的经历及代表语言:
编程语言中一种特殊的编程语言:SQL
结构化查询语言(Structured Query Language)简称SQL
SQL是一种特殊的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统
对于在大数据领域开始职业生涯的你们来说,SQL是一种必不可少的编程语言。
关于大数据相关入门的知识分享到这里了,希望可以共同的迈进大数据开发的学习中,适应当前所处的时代!!!