本节书摘来异步社区《信息存储与管理(第二版):数字信息的存储、管理和保护》一书中的第1章,第1.1节,作者:【新加坡】G.Somasundaram ,【美】Alok Shrivastava,更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.1 信息存储
信息存储与管理(第二版):数字信息的存储、管理和保护
商家通过分析和处理数据来获得对它们每天操作相关的信息,而存储就是允许用户持续存取数字数据的仓库。
1.1.1 数据
数据就是原始事实的集合,从中可以得出一些结论。手写书信、印刷书籍、家庭照片、已签字的抵押贷款文件、银行账册和机票等都包含了数据。
在计算机发明之前,数据的产生和共享仅限于很少的形式,例如,纸和胶卷。今天,相同的数据可以转换成更多便利的格式,如一个邮件信息、一本电子书、一张数字图像或者一部数字电影。这些数据都可以用计算机生成并存储为0和1的字串,如图1-1所示。这种形式的数据称为数字数据,经过计算机处理之后可以被用户使用。
随着计算机和通信技术的发展,产生数据和共享数据的速率也呈指数增长。下面是一些促进数字数据增长的因素。
数据处理能力的提升:当今计算机在处理能力和存储能力上有了显著提高。这促成了把不同类型的内容和介质从传统方式转换为数字格式。
数字存储的低成本:技术的进步和存储成本的降低提供了低成本的解决方案,也促进了价格更低廉的存储设备的开发。这种成本的减少提升了数据产生和存储的增长速度。
可负担的和更快的通信技术:共享数字数据比传统方式更加快捷。一封手写的书信也许需要一周才能到达目的地,而一封电子邮件只需几秒钟就能抵达收件人。
无处不在的应用和智能设备:智能手机、平板电脑、新型电子设备和智能应用贡献了大量的数字内容。
目前,创建、收集和存储各种类型的数据变得廉价且更加容易。伴随着个人和商业需求的增长,加速了数据的产生,这种现象被称为数据爆炸。个人和商业机构对“数据爆炸”有不同程度的贡献。
随着时间的推移,数据的重要性和价值都会改变。大部分产生的数据都只在短期内重要,时间一长就不那么重要了。这一特点影响着数据存储解决方案的选择。通常最近产生的且使用率较高的数据存储在高速但成本较高的设备上。过一段时间之后,这些数据可以被转移到速度较慢、成本低但是可靠的设备上。
研究和商业数据实例:
下面是一些研究和商业数据实例。
客户数据:关系到公司客户的数据,如订单信息、发货地址以及购买历史清单。
生产数据:包括产品不同方面的数据,如库存、描述、价格、可用量和销售量。
医疗数据:涉及医疗护理的数据,如病人历史记录、放射图像、药物详细信息以及其他诊断治疗和保险信息。
地震学数据:地震学是研究地震的学科。需要收集数据并处理,以获取信息来判断地震的位置和震级。
商业应用会产生大量的数据,然后从中提取有意义的信息来获得经济利益。因此,商业应用需要维护数据并保证其在较长一段时间内可用。更进一步,不同数据的重要程度不同,需要具体的处理。例如,法律和规章制度要求银行必须保证客户账户信息的准确性和安全性。一些商业应用需要处理上百万客户的数据,并保证它们在很长一段时间内是完整的和安全的,这就需要高性能大容量且具有增强安全性能的存储设备。
1.1.2 数据类型
根据存储和管理方式,可以将数据划分为结构化数据和非结构化数据(如图1-3所示)。结构化数据按行和列这种严格的格式组织,以便用户能够高效地检索和处理。结构化数据通常用数据库管理系统存储。
如果数据无法按行和列进行存储,那么该数据就是非结构化数据。这种数据比较难于被商业应用检索和查询。例如,客户联系信息可能会存储成不同的格式,如便签、邮件信息、商业名片,或者数字格式的文件(DOC文件、TXT文本文件和PDF文件)。由于它的非结构化特征,使用传统的客户关系管理应用来获取非结构化数据比较困难。新创建数据绝大多数都是非结构化数据。如何应用新架构、新技术、新方法和新技能来存储、管理和分析各种来源的非结构化数据,并从中获取价值,是业界面临的挑战。
1.1.3 大数据
大数据是一个新提出的且在不断演化的概念,是指数据量超出了常规软件工具在可接受的时间内的抓取、存储、管理和处理能力。它既包括结构化数据,也包括非结构化数据。其数据的来源多种多样,可以来自商务应用处理、网页、视频、图像和社交媒体等。这些数据集通常需要实时地抓取和更新,以用于分析、预测性建模和决策等用途。
从大数据中吸取价值存在很大的机遇。大数据的生态系统(见图1-3)由以下元素组成:
1.从多个位置收集数据,并从收集的数据中生成数据(元数据)的设备。
2.数据收集器,收集来自设备和用户的数据。
3.数据聚合工具,从收集的数据中吸取有意义的信息。
4.数据用户和买家,是指在数据价值链中从他人收集或聚合的数据中获益的人群。
大数据的数据量、多样性、变化范围和复杂性超出了传统的IT设备和数据处理工具及方法的处理能力。对大数据进行实时分析需要新的方法、架构和工具,以提供高性能、大规模并行处理(MPP)数据平台和对数据集的复杂分析。
数据科学是一门新兴的学科,商业组织可以利用这门学科从大数据中获取商业价值。数据科学是多门学科(统计学、数学、数据可视化和计算机科学)的综合。数据科学家的职责是设计各种高级算法对海量数据进行分析,以寻找新的价值点,为更多的决策提供数据支持。
很多领域和市场已经开始利用数据科学,从大数据的分析中获益。其中包括医学与科学研究、医疗医护、公共管理、欺诈检测、社交媒体、银行、保险公司,以及其他以数字信息为中心的实体。
1.1.4 信息
不管是结构化数据还是非结构化数据,除非其被展现成一种有意义的形式,否则都不能满足任何个人的或是商业的目的。信息就是从数据中提取出来的智慧和知识。
商业应用分析原始数据以找出有意义的趋势。基于这些趋势,公司可以制定和修改其策略。例如,只需通过分析客户的购买模式和维护客户的物品清单,零售商就可以辨认出客户喜欢的样式和品牌的名字。
有效的数据分析不仅给现有的商业应用带来利益,而且通过采用创造性的方式来使用数据还能创造出潜在的、新的商业机会。
1.1.5 存储
由个人和商业应用产生的数据必须存储起来,以便在进一步处理时可以进行访问。在一个计算环境下,用来存储数据的设备称为存储设备(storage device),或简称存储(storage)。存储设备的类型取决于数据类型以及数据创建和使用的频率。像手机或数码相机中的内存、DVD、CD-ROM和个人电脑中的硬盘等都是存储设备的实例。
商业应用中通常使用的几种存储介质,包括内部硬盘、外部磁盘阵列和磁带。