数据分析08|数据集成

本文介绍了数据集成的概念,强调了其在大数据项目中的重要性。讲解了数据集成的ETL和ELT架构,推荐了ETL工具Kettle,并详细阐述了Kettle的安装过程,包括安装JDK和Kettle本身。Kettle是一款基于元数据驱动的数据集成工具,提供了可视化的方式进行数据操作。最后,文章提到了解决Kettle连接MySQL时可能出现的问题及其解决方案。
摘要由CSDN通过智能技术生成

概念释义

数据集集成简单通俗地解释是把不同来源的数据合并存放在一起(如数据仓库),从而方便后续数据挖掘工作。如果把数据挖掘比喻成炒菜,数据集成就是备菜的过程。
在实际大数据项目中,80%的工作与数据集成相关。广义的数据集成包括数据清洗、数据抽取、数据集成和数据变换等操作。
那么,数据集成有什么意义?在日常实际工作当中,我们需要的数据一般分布在不同的数据源中,而对这些数据进行规范化、标准化处理是必要的步骤,不然类似同一字段表达不同含义的情况会导致后续数据挖掘得到的结果失去意义。

数据集成的两种架构

数据工程师的主要工作内容包括数据ETL和数据挖掘的算法实现两部分。上面说了数据工程师大部分时间都在做ETL这部分工作。
ETL英文是Extract、Transform、Load的缩写,即数据抽取、转换以及加载三个过程。
数据抽取就是把数据从已有的数据源中提取出来。
数据转换就是对原始数据进行处理,如把两种表合成一张。
数据加载就是数据结果导出。
根据转换发生的顺序和位置,数据集成可分为ETL和ELT两种架构。其中ETL目前是主流,而ELT是未来发展趋势。
在这里插入图片描述

ETL工具

典型的 ETL 工具有:
商业软件:Informatica PowerCenter、IBM InfoSphereDataStage。Oracle Data Integrator、Microsoft SQL Server Integration Services 等
开源软件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值