总结非结构化数据分析「十步走」

翻译 2017年11月04日 02:15:42

注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实。

如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长过程中做出正确决策,企业必须充分了解结构化和非结构化数据。下面列出的10个步骤,将为企业非结构化数据的成功分析提供借鉴。

图片描述

1. 确定一个数据源

对于小型企业而言,了解对其有利的数据源尤为重要。你可以使用一个或多个数据源来采集与你业务相关的信息。但通过随机数据源收集信息远非明智之选,因为这个过程极有可能破坏数据甚至造成部分数据丢失。因此,建议在开始采集数据之前,预先调查相关数据源。这里你可以用到一些在线大数据开发工具来进行数据采集工作。

2. 管理你的非结构化数据检索

按照结构化与非结构化划分,这两类所采集到的数据在使用上也有所不同。查找和收集数据只是其中一小步,搭建非结构化数据检索并赋予其可用性则完全是另一件需要头疼的事。这第二步同收集数据一样都很重要,但如若管理不当,将对客户以及企业自身产生不小的负面影响。这就需要企业在非结构化数据量激增之前,先投资一个不错的业务管理工具。

3. 清除无用数据

在数据收集与结构化之后,我们来到了第三步——数据清除。虽然大多数数据只会进一步推动企业发展,但有时也会造成不小的麻烦。如果非结构化数据在企业业务的硬盘驱动器、存储或是备份中占用太多空间,就极有可能会损害企业发展动力。对无用数据进行清除,将进一步减少混乱,同时避免在无意义数据身上浪费时间。

4. 准备存储数据

这里的数据准备工作指的是删除数据中的所有空格、格式化问题等。到一步,当你拿到所有数据时,无论其对业务而言是否有用,一旦数据准备完成,就可以开始构建数据堆栈,并为非结构化数据制定索引。

5. 数据堆栈和数据存储的技术选型

在清除无用数据之后,构建数据堆栈会是一个理想化的选择。这里请务必选用最新的技术来保存数据及构建堆栈,以便企业及内部与数据打交道的员工能够在第一时间轻松get重要的强制数据。此外,请确保你有一个持续维护更新的数据备份,以及数据恢复服务。

6. 保留为存储数据

这一点看起来似乎显而易见,但还是要提醒大家注意:在进行任何删除操作之前,都务必要确保数据已保存——无论时结构化数据还是非结构化数据。近段时间,全球范围内的多起灾害性事件都在向我们强调,特别是在危机时期,实时更新数据备份恢复系统必不可少。世事难料,你不知道哪一刻你的数据就被清空了。因此,就需要提前对此做好充分的准备,要经常对工作进行保存。

7. 检索恢复有用信息

在数据合理备份之后,就可以开始恢复数据了。这一步也相当重要,因为在完成非结构化信息转换之后,还会需要检索恢复数据。

8. 本体评估

这里如果可以显示信息来源与所提取数据之间的关联就更好了,这将有助于你更好更透彻地理解有关数据组织的内容。企业往往需要能够解释你所采取地步骤和选用地流程,因此,你需要将这些记录下来,以便之后的模式识别以及对进程的持续跟进。

9. 统计记录

如果你已经通过上述所有步骤将非结构化数据检索转换成结构化数据,就可以开始创建统计信息了——对数据进行分类及分段处理以便使用和学习,从而为将来的持续使用奠基。

10. 分析数据

很快我们就来到了非结构化数据索引地最后一个环节。在所有原始数据结构化之后,就需要开始分析并做出与业务相关并对其有益的决策。索引还可以帮助小型企业为将来的进一步使用制定可持续方案。

总结

上述内容并非数据结构化的唯一途径,但该步骤的可行性,以及在制定可持续方案方面的表现已在实践中得到证实。非结构化数据可能会成为阻滞小型企业发展的“数据垃圾”,所以本文旨在帮助这些企业环节由存储数据混杂造成的业务压力。

原文:10 Steps for Analyzing Unstructured Data

大数据抓取采集框架

大数据抓取采集框架 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越...
  • sunscheung
  • sunscheung
  • 2017年07月14日 16:30
  • 1354

总结非结构化数据分析「十步走」

如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长过程中做出正确决策,企业必须充分了解结构化和非结构化数据。本文将列出10个步骤,为企业非结构化数据的成功分析提供借鉴。...
  • dev_csdn
  • dev_csdn
  • 2017年11月04日 02:15
  • 612

架构大数据分析应用

这是《Scalable Big Data Architecture》一书的翻译笔记和读书札记,融入自己的部分观点 ….典型使用场景....大数据生态系统........
  • wireless_com
  • wireless_com
  • 2016年05月18日 21:19
  • 13812

《从非结构化数据到大数据》有感

看到一篇文章,是一位Orcale专家,对当下非结构化数据存贮和大数据处理的方案介绍(其实也是为了推广公司产品),个人觉得对大数据这一块认识更深了,受益匪浅啊。 下面讲讲个人理解:     自从互联...
  • changshenglugu
  • changshenglugu
  • 2015年04月23日 15:51
  • 1814

分析非结构化数据的10个步骤

如今,数据分析正在成为企业发展的重要组成部分。企业必须对结构化和非结构化数据有所了解,才能更好地为业务发展做出正确决策。以下是帮助企业分析非结构化数据的10个步骤: 01 确定一个数据源 ...
  • op07p6Aaqo9u71
  • op07p6Aaqo9u71
  • 2017年11月18日 00:00
  • 213

大数据架构的典型方法和方式

NoSQL 技术为应用提供了缓存和搜索特性,但既然是处理数据,就需要定义一种方法来处理各种数据流,以便能够给用户输出见解或数据服务。通过审视被IT组织使用广泛的数据架构来定义处理的拓扑结构。当考虑服务...
  • wireless_com
  • wireless_com
  • 2016年06月04日 15:15
  • 25977

如何成为一名真正的数据分析师或者数据工程师

原文  http://www.pm28.com/post-322.html 一.入门:高屋建瓴 数据分析的坑很大,一开始走上这条路,就要明确基本的方向,依托于核心的思想,不然只会越...
  • brandon2015
  • brandon2015
  • 2017年07月01日 15:44
  • 1125

结构化、半结构化和非结构化问题

 结构化程度是指对某一决策问题的决策过程、决策环境和规律,能否用明确的语言(数学的或逻辑学的、形式的或非形式的、定量的或定性的)给予说明或描述清晰程度或准确程度。按照决策问题的结构化程度不同把决策问题...
  • newhappy2008
  • newhappy2008
  • 2006年11月18日 20:54
  • 14810

非结构化数据--mongodb数据库的基本操作

mongodb一般指分布式文档存储数据介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复...
  • han_yankun2009
  • han_yankun2009
  • 2013年12月01日 00:57
  • 16904

数据库-数据存储-非结构化数据的存储方式

大的数据体量:社交媒体、移动设备、科学计算、视频监控、城市中部署的各类传感器等等(视频数据) 针对Oracle、MySQL、SQL Server、DB2等结构化数据,我们可以选择存储在关系型...
  • u012718713
  • u012718713
  • 2016年03月10日 17:59
  • 4024
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:总结非结构化数据分析「十步走」
举报原因:
原因补充:

(最多只允许输入30个字)