总结非结构化数据分析「十步走」

翻译 2017年11月04日 02:15:42

注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实。

如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长过程中做出正确决策,企业必须充分了解结构化和非结构化数据。下面列出的10个步骤,将为企业非结构化数据的成功分析提供借鉴。

图片描述

1. 确定一个数据源

对于小型企业而言,了解对其有利的数据源尤为重要。你可以使用一个或多个数据源来采集与你业务相关的信息。但通过随机数据源收集信息远非明智之选,因为这个过程极有可能破坏数据甚至造成部分数据丢失。因此,建议在开始采集数据之前,预先调查相关数据源。这里你可以用到一些在线大数据开发工具来进行数据采集工作。

2. 管理你的非结构化数据检索

按照结构化与非结构化划分,这两类所采集到的数据在使用上也有所不同。查找和收集数据只是其中一小步,搭建非结构化数据检索并赋予其可用性则完全是另一件需要头疼的事。这第二步同收集数据一样都很重要,但如若管理不当,将对客户以及企业自身产生不小的负面影响。这就需要企业在非结构化数据量激增之前,先投资一个不错的业务管理工具。

3. 清除无用数据

在数据收集与结构化之后,我们来到了第三步——数据清除。虽然大多数数据只会进一步推动企业发展,但有时也会造成不小的麻烦。如果非结构化数据在企业业务的硬盘驱动器、存储或是备份中占用太多空间,就极有可能会损害企业发展动力。对无用数据进行清除,将进一步减少混乱,同时避免在无意义数据身上浪费时间。

4. 准备存储数据

这里的数据准备工作指的是删除数据中的所有空格、格式化问题等。到一步,当你拿到所有数据时,无论其对业务而言是否有用,一旦数据准备完成,就可以开始构建数据堆栈,并为非结构化数据制定索引。

5. 数据堆栈和数据存储的技术选型

在清除无用数据之后,构建数据堆栈会是一个理想化的选择。这里请务必选用最新的技术来保存数据及构建堆栈,以便企业及内部与数据打交道的员工能够在第一时间轻松get重要的强制数据。此外,请确保你有一个持续维护更新的数据备份,以及数据恢复服务。

6. 保留为存储数据

这一点看起来似乎显而易见,但还是要提醒大家注意:在进行任何删除操作之前,都务必要确保数据已保存——无论时结构化数据还是非结构化数据。近段时间,全球范围内的多起灾害性事件都在向我们强调,特别是在危机时期,实时更新数据备份恢复系统必不可少。世事难料,你不知道哪一刻你的数据就被清空了。因此,就需要提前对此做好充分的准备,要经常对工作进行保存。

7. 检索恢复有用信息

在数据合理备份之后,就可以开始恢复数据了。这一步也相当重要,因为在完成非结构化信息转换之后,还会需要检索恢复数据。

8. 本体评估

这里如果可以显示信息来源与所提取数据之间的关联就更好了,这将有助于你更好更透彻地理解有关数据组织的内容。企业往往需要能够解释你所采取地步骤和选用地流程,因此,你需要将这些记录下来,以便之后的模式识别以及对进程的持续跟进。

9. 统计记录

如果你已经通过上述所有步骤将非结构化数据检索转换成结构化数据,就可以开始创建统计信息了——对数据进行分类及分段处理以便使用和学习,从而为将来的持续使用奠基。

10. 分析数据

很快我们就来到了非结构化数据索引地最后一个环节。在所有原始数据结构化之后,就需要开始分析并做出与业务相关并对其有益的决策。索引还可以帮助小型企业为将来的进一步使用制定可持续方案。

总结

上述内容并非数据结构化的唯一途径,但该步骤的可行性,以及在制定可持续方案方面的表现已在实践中得到证实。非结构化数据可能会成为阻滞小型企业发展的“数据垃圾”,所以本文旨在帮助这些企业环节由存储数据混杂造成的业务压力。

原文:10 Steps for Analyzing Unstructured Data

相关文章推荐

Twitter,Facebook和社交媒体 - 对非结构化数据分析

Twitter,Facebook和社交媒体 - 对非结构化数据分析   引用维基百科: - 非结构化数据(或非结构化信息),是指信息,要么没有一个预先定义的数据模型和/或不合身到关系表中。非结构化信息...
  • odetta1
  • odetta1
  • 2014年07月23日 10:23
  • 309

美国进入“非结构化”数据分析新时代

 美国进入“非结构化”数据分析新时代 目前,对国内大部分企业级客户而言,大数据时代已经真正到来了。 虽然,近年来“大数据”及“数据分析”概念被炒得很火,但国内,国内很多CIO/CTO们仍很“...

Python中的结构化数据分析利器-Pandas简介

Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发t...

结构思维——用结构化思考让数据分析到达问题的底层

对数据分析而言,不仅仅是直接回答问题,同时还需要针对问题,不断去探求,不断去深入。当探求问题的时候,可以用到图表可以用到统计,不过图表和统计的方式只是解决问题的手段,真正要解决问题,就需要用到结构思维...
  • c_trek
  • c_trek
  • 2017年07月03日 10:29
  • 1430

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储

前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的”云梯”是当时国内名声显赫的计算平台。 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:总结非结构化数据分析「十步走」
举报原因:
原因补充:

(最多只允许输入30个字)