大数据时代

a_account

已于 2024-04-10 11:45:17 修改

阅读量750

点赞数 19

文章标签：大数据 hadoop 分布式

于 2024-04-10 11:44:00 首次发布

本文链接：https://blog.csdn.net/a_account/article/details/137590407

版权

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。 [4]

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]

随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

一、结构

大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示：企业中80%的数据都是非结构化数据，这些数据每年都按指数增长60%。 [6]大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。 [7]

其次，想要系统的认知大数据，必须要全面而细致的分解它，着手从三个层面来展开：

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

二、数据要素

概念

数据技术的发展伴随着数据应用需求的演变，影响着数据投入生产的方式和规模，数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。因此，“数据要素”一词是面向数字经济，在讨论生产力和生产关系的语境中对“数据”的指代，是对数据促进生产价值的强调。即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态，投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴。 [24]

数据产品

1.数据库商品

（1）概念/定义

数据库是结构化信息或数据的有序集合，一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中，数据、DBMS 及关联应用一起被称为数据库系统，通常简称为数据库。 [25]

（2）数据库分类

关系数据库：关系数据库在 20 世纪 80 年代成为了主流。在关系数据库中，项被组织为一组具有列和行的表。这为访问结构化信息提供了一种有效、灵活的方法。

面向对象数据库：面向对象数据库中的信息以对象的形式表示，这与面向对象的编程相类似。

分布式数据库：分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上，位于同一个物理位置，或分散在不同的网络上。

数据仓库：数据仓库是数据的中央存储库，是专为快速查询和分析而设计的数据库。

NoSQL 数据库：NoSQL 或非关系数据库，支持存储和操作非结构化及半结构化数据（与关系数据库相反，关系数据库定义了应如何组合插入数据库的数据）。随着 Web 应用的日益普及和复杂化，NoSQL 数据库得到了越来越广泛的应用。

图形数据库：图形数据库根据实体和实体之间的关系来存储数据。

OLTP 数据库：OLTP 数据库是一种高速分析数据库，专为多个用户执行大量事务而设计。

云数据库：云数据库指基于私有云、公有云或混合云计算平台的结构化或非结构化数据集合，可分为传统云数据库和数据库即服务 (DBaaS) 两种类型。在 DBaaS 中，管理和维护工作均由服务提供商负责。

多模型数据库：多模型数据库指的是将不同类型的数据库模型整合到一个集成的后端中，以此来满足各种不同的数据类型的需求。

文档/JSON 数据库：文档数据库专为存储、检索和管理面向文档的信息而设计，它是一种以 JSON 格式（而不是采用行和列）存储数据的现代方法。

自治驾驶数据库：基于云的自治驾驶数据库（也称作自治数据库）是一种全新的极具革新性的数据库，它利用机器学习技术自动执行数据库调优、保护、备份、更新，以及传统上由数据库管理员 (DBA) 执行的其他常规管理任务。 [25]

向量数据库（Vector Database）：向量数据库是专门用来存储和查询向量的数据库。这些向量通常来自于对文本、语音、图像、视频等的向量化。与传统数据库相比，向量数据库可以处理更多非结构化数据。在机器学习和深度学习中，数据通常以向量形式表示，因此向量数据库在这些领域中非常有用。

2.核验接口

（1）概念/定义

核验接口是指通过网络或其他方式，将需要核验的信息传输到指定的接口，进行核验并返回核验结果的一种接口。在实名认证、身份验证、数据安全等方面，核验接口都有着广泛的应用。

（2）常见的核验接口

身份信息核验接口：用于核验身份证号码和姓名是否一致，可以包括身份证二要素核验（核验姓名、身份证号是否一致）和身份证四要素核验（核验姓名、身份证号、有效期始、有效期止是否一致）。

个人实名认证接口：用于进行个人实名认证，验证个人身份信息的真实性和合法性。

企业四要素核验接口：用于核验企业的组织机构代码、营业执照号码、纳税人识别号码等信息是否一致。

银行卡信息核验接口：用于银行卡类型查询、银行卡真伪核验，校验银行卡四要素（姓名、手机号码、身份证号码和银行卡号）信息是否一致。

3.查询接口

（1）概念/定义

查询接口是指通过网络或其他方式，将查询请求传输到指定的接口，进行查询并返回查询结果的一种接口。在数据库中，查询接口可以用于查询数据表中的数据。

（2）常见的查询接口

公共信息查询接口：天气查询、国内油价查询、交通违章代码查询和空气质量查询等数据查询接口。

常识类信息查询接口：如星座查询、垃圾分类识别查询、节假日信息查询和邮编查询等数据查询接口。

企业信息查询接口：包括企业简介信息查询、企业工商信息变更查询、企业LOGO、企业专利信息等数据查询接口。

4.数据模型结果

（1）概念/定义

数据模型结果是指数据建模过程的输出结果，它是对数据对象及其之间关系的结构化表示。在数据产品中，数据模型结果可以包括表格、图表、图形等可视化形式，帮助用户理解数据及其关联关系。

（2）常见的数据模型结果应用

在金融业中，数据模型结果可以用于分析市场趋势和客户需求，从而实现精准营销和风险管理。

在零售业中，数据模型结果可以用于分析商品销售情况、顾客行为和偏好，进行优化库存管理、改善定价策略并提供个性化推荐服务等应用。

在电信行业中，数据模型结果可以用于分析网络流量分析从而提升网络质量和网络利用率、用于用户行为和偏好分析管理客户关系以及精准营销等应用。

在医疗行业中，数据模型结果可以分析患者病历数据，实现疾病预测，以及发展个性化治疗，考虑个人的遗传变异因素，改善医疗保健效果，减少副作用，降低医疗成本。

数据采集与处理

（1）概念/定义

数据采集与处理是大数据的关键技术之一，它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理，包括数据清洗、填补和规范化等流程，使无序的数据更加有序，便于处理，以达到快速分析处理的目的。

（2）常见应用场景

金融行业：大数据采集与处理在金融行业中的应用非常广泛。例如，银行可以通过采集和处理大量的交易数据来进行风险评估和欺诈检测。

零售业：大数据采集与处理是零售商了解消费者的购买行为和偏好，从而进行精准的市场定位和个性化营销的重要支撑。通过采集和分析大量的销售数据和顾客反馈，零售商可以优化库存管理、供应链和销售策略。

医疗行业：大数据采集与处理在健康医疗领域中有着重要的应用。医疗机构可以通过采集和分析患者的医疗记录、生物传感器数据和基因组数据来进行疾病预测、诊断和治疗。此外，大数据还可以用于监测公共卫生事件和流行病爆发。

物联网：物联网设备产生的海量数据需要进行采集和处理。大数据采集与处理可以帮助物联网应用实现实时监测、远程控制和智能决策。例如，智能家居可以通过采集和分析家庭设备的数据来实现自动化控制和能源管理。

社交媒体：社交媒体平台产生了大量的用户生成内容和社交数据。通过采集和处理这些数据，社交媒体平台可以提供个性化的推荐、广告定向和舆情分析等功能。

城市管理：大数据采集与处理可以帮助城市管理者实现智慧城市的建设。通过采集和分析城市交通、环境、能源等方面的数据，城市管理者可以优化交通流量、改善环境质量和提高能源利用效率。

数据存储与管理

（1）概念/定义

数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上，并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象，并确保数据的可靠性、安全性、可用性和可扩展性。

（2）常见的应用场景

金融行业：金融机构需要存储和管理大量的交易数据、客户数据和市场数据。数据存储和管理可以帮助金融机构进行风险管理、反欺诈分析、客户关系管理等。

零售业：零售商需要存储和管理大量的销售数据、库存数据和顾客数据。数据存储和管理可以辅助零售商进行销售分析、库存管理、个性化营销等工作。

健康医疗：医疗机构需要存储和管理患者的医疗记录、病历数据和医学影像数据。数据存储和管理可以帮助医疗机构进行疾病诊断、治疗计划制定、医学研究等。

物联网：物联网设备产生的数据需要进行存储和管理。例如对采集的农田土壤、气象、水质等数据进行数据存储和管理，为实现智能农业的精准灌溉和农作物生长监测提供支持。

社交媒体：社交媒体平台需要存储和管理用户生成的内容、社交关系数据和用户行为数据。数据存储和管理可以帮助社交媒体平台进行用户推荐、内容分发、广告定向等。

城市管理：城市管理部门需要存储和管理城市交通数据、环境监测数据和公共服务数据。数据存储和管理可以帮助城市管理部门进行交通优化、环境保护、智慧城市建设等。

电信行业：电信运营商需要存储和管理大量的通信数据、用户数据和网络数据。数据存储和管理可以帮助电信运营商进行网络优化、用户分析、故障排查等。

Hadoop
1.核心架构
随着大数据时代的来临，处理和分析海量数据成为了一项重要的挑战。为了应对这一挑战，Hadoop生态系统应运而生。Hadoop生态系统是一个开源的、可扩展的解决方案，它由三大核心部件组成，分别是Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架(MapReduce)和Hadoop分布式存储和计算平台(YARN)。这三个部件共同协作，提供了一个高效和可靠的大数据处理平台。本文将对Hadoop生态系统的这三大部件进行详细解析，以帮助读者更好地理解Hadoop生态系统的工作原理和优势。

在大数据领域中最有名的就是 Hadoop 生态，总体来看，它主要由三部分构成：底层文件存储系统 HDFS（Hadoop Distributed File System，Hadoop 分布式文件系统）、资源调度计算框架 Yarn（Yet Another Resource Negotiator，又一个资源协调者）以及基于 HDFS 与 Yarn的上层应用组件，例如 HBase、Hive 等。

01 HDFS
HDFS 被设计成适合运行在通用硬件（Commodity Hardware）上的分布式文件系统。它和现有的分布式文件系统有很多共同点，例如典型的 Master-Slave 架构（这里不准备展开介绍），也有不同点，HDFS 是一个具有高度容错性的系统，适合部署在廉价的机器上。关于HDFS 这里主要想说两点，默认副本数的设置以及机架感知（Rack Awareness）。

HDFS 默认副本数是 3，这是因为 Hadoop 有着高度的容错性，从数据冗余以及分布的角度来看，需要在同一机房不同机柜以及跨数据中心进行数据存储以保证数据最大可用。因此，为了达到上述目的，数据块需要至少存放在同一机房的不同机架（2 份）以及跨数据中心的某一机架（1 份）中，共 3 份数据。

机架感知的目的是在计算中尽量让不同节点之间的通信能够发生在同一个机架之内，而不是跨机架，进而减少分布式计算中数据在不同的网络之间的传输，减少网络带宽资源的消耗。例如当集群发生数据读取的时候，客户端按照由近到远的优先次序决定哪个数据节点向客户端发送数据，因为在分布式框架中，网络 I/O 已经成为主要的性能瓶颈。

只有深刻理解了这两点，才能理解为什么 Hadoop 有着高度的容错性。高度容错性是Hadoop 可以在通用硬件上运行的基础。

02 Yarn
Yarn 是继 Common、HDFS、MapReduce 之后 Hadoop 的又一个子项目，它是在MapReduceV2 中提出的。

在 Hadoop1.0 中，JobTracker 由资源管理器（由 TaskScheduler 模块实现）和作业控制（由 JobTracker 中多个模块共同实现）两部分组成。

在 Hadoop1.0 中，JobTracker 没有将资源管理相关功能与应用程序相关功能拆分开，逐渐成为集群的瓶颈，进而导致集群出现可扩展性变差、资源利用率下降以及多框架支持不足等多方面的问题。

在 MapReduceV2 中，Yarn 负责管理 MapReduce 中的资源（内存、CPU 等）并且将其打包成 Container。这样可以使 MapReduce 专注于它擅长的数据处理任务，而不需要考虑资源调度。这种松耦合的架构方式实现了 Hadoop 整体框架的灵活性。

03 Hive
Hive 是基于Hadoop 的数据仓库基础构架，它利用简单的 SQL 语句（简称 HQL）来查询、分析存储在 HDFS 中的数据，并把 SQL 语句转换成 MapReduce 程序来进行数据的处理。Hive与传统的关系型数据库的主要区别体现在以下几点。

存储的位置， Hive 的数据存储在 HDFS 或者 HBase 中，而后者的数据一般存储在裸设备或者本地的文件系统中，由于 Hive 是基于 HDFS 构建的，那么依赖 HDFS 的容错特性，Hive 中的数据表天然具有冗余的特点。

数据库更新， Hive 是不支持更新的，一般是一次写入多次读写（这部分从 Hive 0.14之后开始支持事务操作，但是约束比较多），但是由于 Hive 是基于 HDFS 作为底层存储的，而 HDFS 的读写不支持事务特性，因此 Hive 的事务支持必然需要拆分数据文件以及日志文件才能支持事务的特性。

执行 SQL 的延迟，Hive 的延迟相对较高，因为每次执行都需要将 SQL 语句解析成MapReduce 程序。

数据的规模上，Hive 一般是 TB 级别，而后者规模相对较小。

可扩展性上，Hive 支持 UDF、UDAF、UDTF，后者相对来说可扩展性较差。