数据仓库--数据

数据仓库基础笔记思维导图已经整理完毕,完整连接为:
数据仓库基础知识笔记思维导图

外部数据

来自于企业外部系统的数据,通常是以非结构化、不可预测的格式进入企业的。

外部数据进入企业环境遇到的问题

  • 外部数据以反向规范的形式进入企业时,就拾取了数据来源的标识,并且

不管怎么样有次序地使用数据都不存在数据间的协同。

  • 外部数据进入企业系统后,很难再使用这些数据

外部数据的两种基本类型

  • 通过数据源收集到的外部数据记录
  • 来自于随机报告、文章以及其他数据源的外部数据

数据仓库中的外部数据

  • 外部数据存在可用频率:外部数据的呈现没有一个真正固定的模式,确保捕获正确的数据必须建立永久的监控方式
  • 外部数据的形式是完全没有规则的,必须对外部数据进行一定的重新格式化。
  • 不可预测性:外部数据几乎在任何时候都可能来自任何数据源
    • 将外部数据存储在大容量存储介质上
    • 创建两种外部数据的存储形式,一种存储包括所有外部数据,一种存储小的多的外部数据子集

外部数据成了数据仓库的附属物,通过索引和数据仓库连接起来,只有当对外部数据进行限定的、有预先准备的请求时。它才会被引入到数据仓库。

元数据与外部数据

外部数据在元数据中的体现:

  • 文件标识符
  • 进入数据仓库的日期
  • 文件描述
  • 文件来源
  • 文件来源的日期
  • 文件的分类
  • 索引字
  • 清理日期
  • 物理地址引用
  • 文件长度
  • 相关引用

通知数据源,例如推荐系统。

外部数据的不同部件

DSS分析员或工程师需要决定那些数据单元是最重要的,将数据存储在一个联机的。易于访问的位置。

数据建模与外部数据

使用数据建模对外部数据进行任何重大改造都是一个错误,顶多创建一个与现有内部数据兼容的数据子集。

辅助报告

如果外部数据是重复性的,可以按时间根据细节数据来产生辅助报告。

WEB数据

WEB数据进入数据仓库

  • 经过粒度管理器软件处理:
    • 清除无关数据
    • 根据多个相关点击流日志记录生成一条记录
    • 清除错误数据
    • 对在Web环境中独一无二的数据,尤其是关键数据进行转换
    • 对数据进行汇总
    • 对数据进行聚集

数据仓库环境数据进入WEB

数据从数据仓库中传送到企业的操作型数据存储(ODS)中,可以通过WEB直接访问。

ODS是一个混合结构体,既具有数据仓库的某些特征,又具有操作系统的一些特征。

  • ODS包含了集成数据,能支持决策支持系统处理
  • ODS又支持高性能的事务处理

ODS中存放的都是解释性数据,从数据仓库中读取出来的数据,经过分析后转换为概要数据或者概要记录。

数据仓库对WEB的支持

  • 容纳巨量数据的能力
  • 存取集成数据的能力
  • 提供优良性能的能力

非结构化数据

非结构化领域是指那些临时的,非正式活动占优势的情况

非结构化数据的基本形式:

  • 电子邮件
  • 电子数据表
  • 文本文件
  • 文档
  • PDF文件
  • PPT文件
  • 等等

结构化数据的基本形式:

  • 标准DBMS
  • 报告
  • 索引
  • 数据库
  • 记录
  • 等等

非结构化环境实际上不存在格式、记录和关键字。

非结构化数据的分类:

  • 通信:通信相对较短且分布有限,而且趋向于一个较短的生命周期
  • 文档:面向更广大的读者。生命周期也比通信长很多

通信和文档的基本形式都是文本

非结构化数据与结构化数据公共联接

两个领域之间公共联接是文本,没有文本,形成联接是不可能的。

只基于文件间的原始匹配,会产生大量的问题:

  • 拼错
  • 上下文
  • 同名
  • 昵称
  • 缩写
  • 不完整名字
  • 词干

非结构化领域与结构化领域匹配方式

  • 基本错误匹配:在两个领域的环境之间存在着基本的错误匹配,原因是非结构化环境以文档和通信为表现形式,而结构化环境则是以事务处理为表现形式的。尽管在不同环境间进行文本匹配是很困难的,但它仍然是数据仓库环境中的数据集成和非结构化数据布局的关键。
  • 环境间文本匹配:非结构化数据必须先进行基本的编辑后再进行匹配。
  • 概率匹配:通过匹配过程中的相关数据,搜集尽可能多的数据,来说明你要寻找的目标,根据重叠部分的数据确定对目标的匹配是否有效。
  • 匹配到所有信息:根据结构化领域与非结构化领与形成的两个信息集,通过信息集来进行匹配。是概率匹配的一种简单形式。
  • 产业特征主题:根据现有的与产业主题有关的词语,对非结构化数据进行分析,根据主题对非结构化数据作对比。
  • 自然事件主题:根据文档信息来确定主题信息。
  • 通过主题和主题词关联:可以通过文档形成的数据域结构化环境建立联接。
  • 通过抽象和元数据关联:在结构化公用数据结构是元数据和数据的出现次数,非结构化环境基于主题的数据能够与结构化环境中的抽象数据产生最佳关联,但是结构化环境中世界存在的数据要与非结构化环境数据关联却不是很容易。

两层数据仓库

使用非结构化数据的基本方法

  • 访问非结构化环境,然后将数据迁移到结构化环境里。
  • 创建一个两层数据仓库,其中一层对应非结构化数据,另一层对应结构化数据。

查看非结构化数据时需要考虑的情况

  • 数据以低粒度级存在
  • 数据是在一定主题范围或主题下规范组织起来的

非结构化数据仓库中的文档

由于有太多的变量,在非结构化数据仓库中存储实际文档是有必要的。

  • 数目
  • 大小
  • 信息重要程度
  • 如果不存储在数据仓库是否容易访问
  • 是否能获取到文档的一部分

自组织图

  • 自组织图可以显示不同的词语和文档如何聚集
  • 根据不同文档中出现的数据形成信息群
  • 具有向下钻取的能力
  • 具有快速关联文档的能力

结构化环境与非结构化环境

  • 在抽象层上–元数据和库
  • 在记录层上–原始数据、标识符、紧密标识符
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值