Data Warehouse Environment

  Data Warehouse Environment

  The movement away from the classical legacy application environment to the informational enabling, data warehouse concentric environment is inevitable. The inadequacies of the legacy environment are such that the question is no logner whether an organization will move to the new information paradigm——but whem.
  With this movement comes the question:What exactly is a data warehouse environment and how does it work?
  The data warehouse is designed to serve the information needs of the entire organization. To
accomplish this, it stores data at different levels of granularity——from current detail data to highly summarized data. As a rule, the more current theta,the more immediate its use. Typically, current detail data supports day-to-day decisions, while historical data supports trend analysis and long-termcisions. 
  One of the requirements of the data warehouse environment is the ability to accumulate and manage large amounts of data. Therefore, it is important to properly choose levels of granularity and summarization for the datae warehouse. Other design approaches and techniques to consider for managing large amounts of data in the warehouse include:storing data on multiple storage media, summarizing data when detail becomes obsolete, storing data relationships in terms of artifacts, encoding and referencing data where appropriated partitioning data for independent management and indexing.What follows is a primer on the role of each of the structural elements that make updata warehouse architecture:
·Current detail. The heart of the data warehouse environment is the current detail data. It is the place where the bulk of the data resides, and it is often stored on a parallel processor. Current detail data is fed directly from the operational, legacy environment, and it represents the entire corporation, not a given application. Current detail data is organized along subject lines.
Every unit of data in therrent detail can be thought of as a snapshot, where one unit of time identifies the moment at which the snapshot is accurate. Current detail represents the lowestvel of granularity of data found in the data warehouse environment. It may be stored as raw data or as a profile——which represents an aggregation of raw data. Current detail is tyically two to five years old. It isfreshed as frequently as required by the environment, be it daily, weekly or monthly.
·Old detail. The old level of detail is where archival data, or data typically older than two years, is stored. There is usually a massive amount data stored at the old detail level and a low probability of access. Old detail is at the same level of granularity as current detail.ta can begregated or
profiled in order to condense it as it enters the old level of detail. Old detail typically contains many versions of the same data structure, becuase the data structure changes over time. It can be stored on a variety of media.
·Departmental/data mart. Lightly summarized data is the hallmark of the departmental element of the data warehouse. The departmental level is customized to suit the needs of the department owning the data. The customization is done as the data passes from current detail to t
he departmental level; the departmental level is fed exclusively by currenttail. There is much less data in any given departmental database than there inrrent detail. The departmental level contains both detail and summaryta. The process of summarization as the data passes into the departmental level is an important piece of meta process. The departmental level of data comfortably uses r
elational technology to perform multidimensional analysis.
·Highly summarized data. The highly summarized level of data in the data warehouse environment is designed for executive management, and should allow access of increasing levels of detail through a drill down process. The highly summarized data comes from either the departmental level of data or the current detail level. The data volume found here is much less than at otherta warehousevels, and represents an eclectic collection, supporting a wide variety of need
s and interests.
·System of record. In theitial stages building a data warehouse, the system of record is data found in the applications which feeds and supports the data warehouse. The system record should always
present the "best" data that a corporation has, where "best" is defined as data that is the most timely, complete and accurate, has the best structural conformance to the integrated data model, and resides the closest to the source entry into the operational environment. The system of record data is by no means perfect, though. As it passes into the datarehouse it undergoes significant editing, cleaning and reformatting.
·Integration/transformation programs. As data passes from the system of record into theta warehouse, it travels through a set of integration and transformation programs, which turn application-specific data into corporate data. These programs perform functions such as reformatting, recalculating,difying key structures, adding me elements, identifying default values, supplying logic to choosetween multiple data sources, summarizing, tallying,d merging data from multiple sources. The integration and transformation programs need to be modified each time the operational environment or the data warehouse environment changes.
   The final element of the data warehouse environment is meta data——orta about data.It resides at all levels of data within the data warehouse, but exists and operates in a different dimension than does other warehouse data. For this reason, meta data is often taken for granted and or misunderstood.Meta data one of the most important aspects of the data warehouse environment. It exists at both warehouse development and end-user application levels. Meta data is used by the data warehouse developer to manage and control data warehouse crea
tion and maintenance. For end users, meta data resides on the data warehouse p
latform itself and is available as a regular part of the access and analysis o
f the warehouse.
   To be successful, a data warehousing system must besy to set up, manage and use. It is important, therefore, to understand itsjectives and requirements, and determine how well vendor products satisfy the needs of data warehouse designers, administrators and business users.

   The key components of data warehousing system include the following:
·Definitio component for defining and setting up the data warehouse environment
·Data acquisition component for copying data from source files and databases to data warehouse databases
·Management component for managing data warehouse operations
·Data distribution component for exporting warehouse data to external systems
·Information directory component for providing information about the data stored in warehouse databases
·DBMS component for managing, maintaining and accessing warehouse data
·Data access and analysis component for providing business end users with t
he tools they need for accessing and analyzing warehouse data.
DEFINITION COMPONENT
The definition component is used by warehouse designers and ministrators to: a design and define the data warehouse database, define the data sources from which the warehouse data will be obtained, and c) specifye rules that define the data cleanup and enhancement to be doneen copying data from source systems to the data warehouse databases. The output from this component is stored as meta data in the information directory component.
DATA ACQUISITION COMPONENT
One of the key objectives of a data warehousing system is to put corporate data in a form that the business user can easily understand and use. The data acquisition component does this bytracting data from urce systems and cleaning and transforming it, based on the rules defined by the definition component. Cleanup may require the restructuring of records or fields, removal of operational-only data, decoding and translation of field values, the supply of missing field values, or the checking of data integrity and consistency. Transformation may involve adding a timeeld (if one is not present in the source data) to reflect the currency of data, data summarization or the calculation of derived values. Once the source data has been cleaned and transformed it is mapped to the target warehouse databases, transported to the data warehousing system, and loaded (or updated) into the appropriaterehouse databases. The loading (or updating) of the warehouse databases is done using SQL (assuming a relational DBMS is being used) ordatabase load utility.
ere are four main types of products that support data acquisition:
·Code generators create tailored data acquisition programs. The objective of these products is to generate tailored 3GL copy programs based on the data structure definitions, as well as on the cleanup and transformation rules defined bye definition component.
·Data replication tools capture changes to a source database on one system and apply the changes to a copy of the source database on a different system. Replication products can also be used to propagate data changes from a central data warehouse to decentralized warehouse database servers.Generalized copy utilities bulk-copy data from a source system to a target system. The focus of these products tends to be on thehigh-speed transfer of data, rather than on data integration, cleanup and transformation.·Database gateways, as a rule, focus on providing workstation end users with access to operational(or data warehouse) databases. This approach is often used as an alternative to building separate data warehouse systems, since it gives the user direct access to operational data.There are many approaches to acquiring data and copying it into a data warehouse system.The direction of the industry is to use a mix of code generators and data replication tools.

MANAGEMENT COMPONENT

  The management component consists of a set of services for use by other warehouse components, and for managing warehouse data collections. A data collection is a set of data  of interest to a specific user or group of users. Data collections are derived from the base data created by the data acquisition component. The services provided by the management component include a data maintenance service for deriving new data collections from warehouse base data and a distribution service for exporting warehouse data to decentralized warehouse database servers and her end-user decision support systems. The management component also provides services for handling the security, archiving, backup and recovery, and monitoring of base data and data collections. Often these services employ the facilites provided by underlying operating system and database software.INFORMATION DIRECTORY COMPONENTThe information directory component of data warehouse contains information(known as meta data)about the data the warehouse databases. A key benefit of the information directory is that it helps business users understand what information exists in the warehouse and how to access and use it.The three main elements of the information directorye thetechnical directory, the business directory and the information navigator.The technical directory contains information about warehouse data for use warehouse designers and administrators. It has information about data sources, targets, cleanup rules, transformation rules and mapping between data sources and the warehouse databases. Most of the information in the technical directory is created when the warehouse designer defines the data sources and targets, as well as the rules to be applied when copying data intoe warehouse. It also be mported from an external system, such as a 3GLpybook library, DBMS system catalog or CASE tool.Information about the amount of data in the warehouse and the date it was created or updated should also be stored in the directory. Ideally, this information should be collected by the toolsployed acquire data from the source systems and delivered the warehouse database.formation about how end users access and use warehouse data shouldso be trapped and added to the technical directory to enable designers and administrators to tune and enhance the data warehouse.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值