大数据概述（二）

最新推荐文章于 2024-05-12 09:30:09 发布

20大数据邓海燕

最新推荐文章于 2024-05-12 09:30:09 发布

阅读量476

点赞数

本文链接：https://blog.csdn.net/m0_53335710/article/details/111465981

版权

2.1.6大数据的关键技术
大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。
1.大数据预处理技术
大数据预处理技术包括以下几个方面：
1）数据采集：ETL是利用某种装置，从系统外部采集数据并输入到系统内部的一个接口。在互联网快速发展的今天，数据采集已经被广泛应用于互联网及分布式领域。
2）数据存取：关系数据库、NoSQL,SQL。
3）基础架构支持：云存储，分布式文件系统等。
4）计算结果展现：计算云、标签云，关系图等。
2.大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统（DFS）、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术；突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术；突破大数据索引技术；突破大数据移动、备份、复制等技术；开发大数据可视化技术。
开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。
开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术；突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
3.大数据分析及挖掘技术
大数据分析技术。改进已有数据挖掘和机器学习技术；开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；突破基于对象的数据连接、相似性连接等大数据融合技术；突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多，有多种分类法。
根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；
根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web；
根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。
4.大数据计算技术
目前采集到的大数据 85%以上是非结构化和半结构化技术，传统的关系数据库无法胜任这些数据的处理。如何处理非结构化和半结构化数据，是大数据计算技术的核心要点。如何能够在不同的数据类型中，进行交叉计算，是大数据计算技术要解决的另一核心内容问题。
大数据计算技术可分为批处理计算和流处理计算，批处理计算主要操作大容量、静态的数据集，并在计算完成后返回结果，适用于需要计算全部数据后才能完成的计算工作；流计算处理计算会对随时进入的数据进行计算，流处理计算无需对整个数据集执行操作，而是对通过传输的每个数据项执行操作，处理结果立刻使用，并会随着新数据的抵达继续更新结果。
2.1.7典型的大数据计算架构
1.Hadoop:是Apache软件基金会旗下的一个开源计算框架，Hadoop的优势在于处理大规模分布式数据的能力，所有要处理的数据都要求在本地，即Hadoop的数据处理工作在硬盘层面，任务的处理是最高延迟的，也就是说Hadoop在实时性数据处理上不占优势。Hadoop是最基础的分布式计算架构。
2.Spark:是基于内存的大数据计算框架，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高伸缩性，Spark处理数据是准实时的，先收集一段时间的数据再进行统一处理。
3.Storm:是基于拓扑的流数据实时计算框架，即完全实时，来一条数据处理一条数据，不同的机制决定了Spark 和Storm适用场景的不同，如股票交易时，股价的变化不是按秒计算的而是以毫秒计算的，Spark实时计算延迟度是秒级，无法用于此类场景，而Storm的实时计算延迟度是毫秒级，所以适用于股票高频交易的场景。
4、三者比较
所谓分布式计算过程就像蚂蚁搬家一样，将一个大型任务分割成很多部分，每一台电脑相当于一个小蚂蚁将其中一部分搬走。Hadoop作为分布式系统的基础架构，其重要性不言而喻。Hadoop的数据处理工作在硬盘层面，借助HDFS(分布式文件系统)，可以将架构下每一台电脑中的硬盘资源聚集起来，不论是存储计算还是调用都可以视为一块硬盘使用，就像以前电脑中的C盘，D盘，之后使用集群管理和调度软件YARN，相当于Windows，毕竟我们要进行编程首先需要一个操作系统，最后利用Map/Reduce计算框架相当于Virtual Studio，就可以在这上面进行计算编程。从而大幅降低了整体计算平台的硬件投入成本。而这也就是最基础的分布式计算架构。
流数据处理双雄Spark和Storm
所谓流数据处理其实不难理解，比如看网上视频，都是下载一段看一段，然后快结束的时候自动下载下一段。由于Hadoop的计算过程放在硬盘，受制于硬件条件限制，数据的吞吐和处理速度明显不如使用内存来的快。于是Spark和Storm开始登上舞台。Spark和Storm两者最大的区别在于实时性：Spark是准实时，先收集一段时间的数据再进行统一处理，好比看网页统计票数每隔几秒刷新一次，而Storm则是完全实时，来一条数据就处理一条。当然Storm实时处理方式所带来的缺点也是很明显的，不论离线批处理，高延迟批处理还是交互式查询都不如Spark框架。不同的机制决定了两者架构适用的场景不同，比如炒股，股价的变化不是按秒计算的(Spark实时计算延迟度是秒级)，在高频交易中，高频获利与否往往就在1ms(0.001秒)之间，而这恰好就是Storm的实时计算延迟度。

20大数据邓海燕

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据概述（二）

2.1.6大数据的关键技术大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。1.大数据预处理技术大数据预处理技术包括以下几个方面：1）数据采集：ETL是利用某种装置，从系统外部采集数据并输入到系统内部的一个接口。在互联网快速发展的今天，数据采
复制链接

扫一扫