【大数据开发基础】第一章大数据的基本概念

1. 什么是大数据?

狭义定义:用现有一般技术难以管理的大量数据的集合

用现有一般技术难以管理有两方面:

  1. 用目前主流的关系型数据库无法进行管理的、具有复杂结构的数据
  2. 数据量过于庞大,查询时间超出允许的最大限度

2. 大数据的3V和5V特征

2.1 3V特征

IBM总结说:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大的容量、极快的速度和种类丰富的数据”
在这里插入图片描述

2.2 大数据的5V特征

1. volume:容量大

容量单位:兆M–>吉G–>太T–>拍P–>艾E–>泽Z
大数据摩尔定律:数据一直都以每年50%的速度增长,即每两年增长一倍

2. variety:类型多。需要支持多种不同格式、不同类型的数据
3. velocity:数据产生和更新的频率快
4. value:应用价值大
5. veracity:质量高,指数据的准确性和可信赖度

3. 广义大数据

广义大数据:包括因具备3V特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织

存储、处理、分析的技术:指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等
能够通过分析这些数据获得实用意义和观点的人才和组织:指的是目前十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织

在这里插入图片描述

4. 大数据的结构类型

大多数的大数据都是非结构化或半结构化的

如图显示了几种不同数据结构类型数据的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据类型
在这里插入图片描述

大数据的基本数据类型:结构化、半结构化和非结构化数据
除这三类外,还有一种重要的数据类型为元数据

元数据提供了一个数据集的特征和结构信息。这种数据主要由机器生成,并且能够添加到数据集中。
搜寻元数据对于大数据存储、处理和分析是至关重要的一步,因为元数据提供了数据系谱信息,以及数据处理的起源

5. 大数据的使用步骤

数据的使用:

  1. 数据清洗
  2. 数据管理
  3. 数据分析
  4. 数据可视化

一般而言,大数据处理流程,我们可分为四步骤:数据采集、数据导入和清洗处理、数据统计分析和挖掘、结果可视化
在这里插入图片描述

1数据采集:一般采用ETL(Extract-Transform-Load)工具将数据抽取到临时文件或数据库,如数据仓库中
2数据清洗和预处理:如数据去重、异常处理和数据归一化
3 数据统计分析和挖掘:统计分析可使用SPSS工具等,进行分类汇总等来满足数据分析的需求。而数据挖掘一般没有预先设定好的主题,主要在现有数据上基于各种算法进行计算,起到预测效果
4数据可视化

判断题:

  1. 大数据的大主要指容量大(x)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很好,让我们来看一些习题吧。 1. 什么是大数据? 答:大数据是指数据量巨大、数据类型多样、数据增长速度快,且难以通过传统数据管理工具进行处理和分析的数据集合。 2. 大数据的四个特点是什么? 答:大数据的四个特点是:数据量巨大、数据类型多样、数据增长速度快、数据处理复杂。 3. 大数据的应用领域有哪些? 答:大数据的应用领域非常广泛,包括但不限于:金融、医疗、能源、交通、零售、媒体、教育、政府等。 4. 什么是数据挖掘? 答:数据挖掘是从大量数据中挖掘出有用的信息和知识的过程,包括数据预处理、模型构建、模型评估等步骤。 5. 什么是Hadoop? 答:Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它包含了Hadoop Distributed File System(HDFS)和MapReduce两个核心模块。 6. 什么是NoSQL数据库? 答:NoSQL数据库是一类非关系型的数据库,用于处理大规模分布式数据集。它们通常具有高可伸缩性、高性能、灵活的数据模型等特点,适合于海量数据的存储和处理。 7. 大数据技术的发展趋势是什么? 答:大数据技术的发展趋势包括:更加智能化、更加实时化、更加高效化、更加安全化等方面的发展。同时,大数据技术也将与云计算、人工智能等技术相结合,形成更加强大的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值