DW2.0下一代数据仓库架构_第19章 DW2.0和非结构化数据(读书笔记)-CSDN博客

版权声明：
该系列文章（DW2.0下一代数据仓库架构）内容系作者学习用笔记，
欢迎共同学习，所载内容版权归原书作（译）者所有，请勿转载商用。

据统计，在企业里有80%的数据是非结构化数据。但是当前计算机的技术都是致力于处理结构化、可重复的数据。这导致在企业中做决策
时没有利用到一些有价值的信息，文本中的有用信息没有成为决策过程的一个重要部分。致力于下一代数据仓库的DW2.0架构意识到在非结构
化的文本信息中存在有价值的信息，必须对文本做一些工作以适合分析处理。而出发点就是文本本身。

文本读取
为分析处理而准备非结构化数据过程的第一步就是读入文本。文本存在于多种格式中，这些格式也可能需要读入。当原始的源文本被读
入以后，下一步就是要准备这些数据以输入数据库。文本的准备是一个复杂的处理过程，有一些好的理由表明文本必须被处理：1、被结构化
数据需要与关系型格式相匹配。2、非结构化数据必须被整合，这样分析处理才有意义，如果仅将原始文本简单地强制输入数据库，就会导致
文本不能被有效甚至有意义地分析。

在哪里进行文本分析处理
现在即将做一个重要的战略决策，就是在什么位置进行文本分析处理：非结构化环境和结构化环境。在结构化环境中进行文本分析要求
非机构化文本被读入、整合、处理以及存储在结构化环境中。完成以上工作是一项艰巨的任务，但是当非结构化文本经过处理被存储在结构
化环境中，就出现了很多机会。当非结构化数据被整合并存储在结构化环境中，就可以使用标准的分析技术。一些组织机构已经花了数百万
美元来培训员工和用户，目的就是在结构化技术的基础上创建一个分析环境。结构化环境中已经有了数据库技术、商务智能、ETL、统计性处
理等，利用这些已经存在的分析环境是非常有意义的。现在要做的就是读取和整合文本信息的能力，文本ETL的出现就是为了实现这一目的。
所以选择在哪里完成文本分析处理时比较容易的，结构化环境就是完成分析处理最好的地方。

文本整合
    整合文本的过程要在将文本存储在数据库之前完成，该过程有很多不同的方面，最重要的步骤有
    1、简单编辑
    2、移除无用词
    3、同义词替换和串联
    4、同形异义解析
    5、主体性聚集
    6、外部术语表/分类覆盖
    7、分词
    8、替换拼写解析
    9、外语自适应
    10、直接或间接搜索帮助

简单编辑
为分析处理准备非结构化文本的第一步是对格式、标点和字体等做一些简单的编辑工作。这种简单编辑是非常重要的，将来的分析搜索
不需要被印刷版式的差异所阻碍。编辑时基本的标点符号、大写、格式、字体和其他被视为搜索障碍等方面被移除。

无用词
无用词是一个有助于语言平滑流畅的词，但其本身却不包含什么信息和意义。例如，一个、和、那、是、那个、哪个、到、从等

同义词替换
同义词替换用来合理化使用不同术语的文本，使其都使用单一的术语。同义词替换使用的一个标准用词来替换其他所有和它含有相同含
义的词。前后一致地使用同一术语是保证可靠地、可重复地查询数据库中的非结构化数据的过程中的重要的一步。

同义词串联
同义词串联是相对于同义词替换的另一种选择，在同义词串联中，不是用一个标准用词来替换同义词，而是将标准用词插入到所有出现
的同义词后面跟它们串联起来。

同形异义解析
同形异义解析跟同义词串联和同义词替换正好相反。同形异义解析用来澄清那些有多重含义的单词和短语，用这些单词实际表示的意思
来替换或者覆盖出现在文本中的单词或者短语。

建立主题
文本整合后需要做的一个有趣且有用的针对文本的事情是产生一个文本的聚类，而聚类文本则生成主题。在文本聚类中，单词和短语根
据他们出现的次数和彼此间的形似度而从逻辑上被聚合在一起。聚类同样也能产生一个术语表和分类法。这个术语表和分类法被称为“内
部术语表”或“内部分类法”。因为它是从系统内部的文本产生的。该过程被称为文本聚类生成主题。

外部术语表/分类法
虽然内部术语表和分类法是很有用的，但外部术语表和分类法同样也很有用。外部术语表和分类法可以来自任何地方，如书籍、索引、
网络等。外部术语表和分类法可表示任何事情，能用于文本上添加一个结构。文本可被读入系统，然后可作一个比较来确定该文本是属于
或者与外部术语表和分类法先关。

分词
当文本简约到希腊文或者拉丁文词根时，就要对其进行分词。如果可以识别词根，那么分词就是非常重要的。换一种说法就是，如果单
词被逐字比较，相关的单词就不会像他们应该的那样被聚合在一起。

替换拼写
如果想要有效地完成搜索，就需要包含对可替换的拼写的需求和实践。有些单词有可替换的拼写方式，许多名字也有其他的拼写方式。
因为不同的名字的不同拼法，会导致搜索一种拼写的时候搜索不到结果，这是一件很遗憾的事情。

跨语言的文本
文本分析另一种有用的特点就是运用多种语言的能力。

直接搜索
文本分析还有另一种重要的特性，就是支持不同种类搜索的能力。文本整合需要为这种特征做好准本，其中一种需要支持的搜索就是直
接搜索。直接搜索的典型代表就是Yahoo或者Google。将参数直接传给搜索引擎，然后该引擎查找所有出现搜索参数的情况。

间接搜索
另一种搜索类型是间接搜索。在间接搜索中，搜索参数同样传给了搜索引擎，但却并没有对其进行搜索。相反，间接搜索是搜索任何与
该参数相关的东西。

术语
在以分析处理为目的的文本处理过程中有个很大的问题，就是术语的处理。术语之所以是一个问题，是因为语言常以术语的形式表达。
设想人的身体。人身体的任何一部分都有20中方式可以指出它。一个医生用一套术语，另一个医生用其他的术语，而护士用另一套术语。
这些不同的人都在谈论同一件事情，然而却是用不同的语言。如果想要对文本进行分析处理，就必须有对术语问题的解决方法。最终的单词
和短语的文本数据库必须同时又一般性和具体性的存储。用于文本分析的最终文本数据库必须要有原始的医生和护士用过的具体的单词，也
要有在整个分析团队都能理解的一般属于。如果一个组织不能解决术语的问题，那就不可能弯沉更有效的文本分析处理。

半结构化数据/值=名称数据
非结构化数据有不同的种类。最简单的形式就是好文档中的文本。在文档的文本中，单词和短语都是没有顺序和结构的，一个非结构化
文档仅仅是个非结构化文档。然而文本文档还有其他的形式。在某种情况下，文档的作者会给出一个可以推断出来的文档结构。一个简单的
例子是烹饪书，在一本烹饪书中有很多烹饪的方法。这是一个文档，里面有隐含的开始和结束。一个烹饪方法结束就是一个开始。很多时候
有必要将书中隐含的结构映射到文本分析数据库中。在某些情况下，这是一个简单显而易见的事情，在令一些情况下，如何映射却一点都不
明显。另一种在DW2.0环境下需要特殊处理的非结构化数据形式是一种被称为“值=名字”的数据形式。要理解这种类型的数据，试想一堆个
人建立。在每一份个人简历上都能找到公共的信息，如名字、地址、教育背景、工资等。能够理解在非结构化数据中的那种数据正被考虑是
很重要的。换句话说，对于“名字-Bill lnmon”，系统能很方便地分辨出名字是一个很重要的域。这种能按符号感知单词的能力对建立文本
分析数据库是很重要的。

准备数据所需的技术
完成非结构化文本整合的技术通常被称为文本ETL技术。即怎样将非结构化数据转换成关系数据库。

关系数据库
当非结构化数据已经准备好进行分析处理时，该文本被置于一个关系数据库中。该关系数据库中可能会被各种不同的分析工具访问和分
析，比如商业智能工具。

结构化和非结构化的连接
当非结构化关系数据库建立以后，它将被连接到结构化数据库，从而形成组织结构中的DW2.0基础。

总结：
    分结构化数据是DW2.0数据仓库的一个重要组成部分。
    非结构化数据必须被读入和整合到DW2.0环境中，非结构化数据的整合过程包含但不仅限于以下内容：
    1、移除标点、字体等阻碍数据访问和分析的东西、
    2、管理可相互替换的拼写
    3、分词
    4、无用词的管理
    5、内部主题和分类法的建立
    6、同义词替换
    7、同义词串联
    8、同形异义解析
    9、外部分类/术语表分类
    当聚集和整合文本化数据以后，便建立关系数据库以支持分析处理。整合以后，文本数据以关系型格式放置，并建立一个关系数据库。
然后这个关系数据库就可以进行商业智能处理。最后，这个非结构化关系数据库要和在DW2.0数据仓库中的结构化数据库进行连接。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/26613085/viewspace-1310618/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1310618/