前言
关于物联网与大数据的分享已经迎来最后一期,回顾之前的内容:我们在物联网与大数据(一)中介绍了物联网与大数据的含义、背景;在从物联网看大数据中探讨了物联网形成大数据的主要环节;在从大数据看物联网中了解了物联网如何促进大数据的发展与深入。
今天我们走进最后一期,在本章中我们将为大家讲解大数据最核心的两方面技术:存储和计算;同时基于上述几章节的分析基础,我们还将分析从物联网的小数据形成大数据,以及如何通过一个物联网操作系统发挥每个阶段数据价值。
大数据技术
大数据技术是指对于大规模数据具备处理能力的各种数据相关的技术。它们都以分布式计算为基础,具备横向扩展能力,以应对大规模数据量的处理需求。图1是一个简化的大数据架构图。
图1 大数据参考架构图
各种来源的数据,包括结构化数据和非结构化数据(以及半结构化数据),形成大数据仓库,并对常用数据建立索引;而大数据计算涉及到实时计算、离线计算和流式计算,以及相应的算法库;大数据运营主要包括数据质量管理、元数据管理(也称为数据字典)和主数据管理,往往也会涉及到数据安全管理。
大数据的存储形式包括分布式文件系统,关系型数据库集群,以及key-value存储等。大数据可以为企业信息系统、业务系统提供数据能力,还可以为企业或组织提供决策支持或者大屏展示等独特的功能。本节接下来介绍大数据最核心的两方面技术:存储和计算。
4.1大数据存储
在现代计算机系统中,最基础的存储抽象是内存和文件系统。单机上的内存和文件系统,受限于单机硬件和操作系统的限制,比如32位总线的系统受限于232=4GB内存空间,而64位系统的空间则大