大数据管理
love others as self
love others as self! ----愿美梦成真!
展开
-
大数据管理:数据集成的技术、方法与最佳实践 读书笔记一
先说下本书的网上介绍本书是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。本书分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、原创 2016-04-28 16:52:41 · 2837 阅读 · 0 评论 -
大数据管理:数据集成的技术、方法与最佳实践 读书笔记二
再来说下数据集成开发过程,批处理数据集成和ETL数据集成生命周期1 确定项目的范围 2 概要分析 生命周期的第二个部分常常会被忽略,即概要分析。因为数据集成被视作一门技术活,而组织通常会对授权访问生产数据比较敏感,因此,为了开发数据接口而对当前存储于可能的源和目标系统的数据进行分析可能是件比较困难的事情。所以,对实际数据进行概要分析往往原创 2016-04-28 16:55:38 · 5422 阅读 · 0 评论 -
大数据管理:数据集成的技术、方法与最佳实践 读书笔记四
这次简单的了解了下数据转换和数据归档什么是数据转换在实现一个新的应用系统,或者将操作从某个应用系统改变到另外一个应用系统时,就有必要搞清楚新应用系统的数据结构。某些情况下,新应用系统的数据结构是空的。其他一些情况下,当合并应用程序时,新的数据结构中早已经有了一些数据,因此需要将数据增加到新系统。这里需要用到所有在抽取、转换和加载以及在第7章中所讨论的技术、策略。原创 2016-04-28 20:47:02 · 3195 阅读 · 0 评论 -
大数据管理:数据集成的技术、方法与最佳实践 读书笔记五之实时数据集成
实时数据集成为什么需要实时数据集成对于大多数据集成需求来说,因为要隔一夜,所以批处理的数据移动方式可能不可接受。一笔业务交易发生之后,要到第二天才能看到,这是难以接受的。同样不能被接受的是某个客户和组织新设立了一个账户之后,却不能够在当天办理业务。实时数据交互过程通常会对在一次交互中所能包含的数据的数量或者大小有所限制。在一次实时数据交互中所能处理的数据块称为一个“原创 2016-04-28 22:34:46 · 1072 阅读 · 0 评论 -
大数据管理:数据集成的技术、方法与最佳实践 读书笔记三
7.1 什么是数据仓库 数据仓库是基于特定的数据结构(以及有关应用程序)所构建的数据的中央存储库,以便为分析和报表提供一致的数据源。面向整个组织创建的企业数据仓库(Enterprise Data Warehouse,EDW)用于对整个组织的信息进行分析。大多数情况下,超大型组织中会有多个企业级数据仓库,每个都拥有组织中某个很大组成部分的数据,如某个区域,或者很大的功能域原创 2016-04-28 19:10:46 · 17171 阅读 · 1 评论 -
数据质量管理--数据抽取和清洗
web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域: 1 数据仓库(DW) 2数据库中的知识发现(KDD) 3数据质量管理(TDQM) 我在公司原创 2016-05-06 11:23:37 · 13161 阅读 · 0 评论 -
数据仓库中的分区修剪
Partition Pruning 在数据仓库中分区修剪是一种非常有效的性能特性。分析修剪分析SQL中的WHERE 和FROM字句,从而在查询中消除不不必要分区。分区修剪技术能大大的减少从磁盘上读取的数据量,从而缩短运行时间,改善查询性能,减少资源浪费。即使你的索引分区和表分区不同,分区修剪也可以在索引上生效(global partition index),从而消除不必要的索引分区。转载 2017-08-23 10:03:40 · 536 阅读 · 0 评论