什么是ETL:
E: extract 抽取数据
- 从多种不同的数据源中抽取数据(从不同数据源中抽取数据的方式不一样)
T: transform 转换数据
- 数据处理 : 数据的拆分, 合并,单位统一.统一逻辑等
- 数据清洗 : 处理异常值,缺失值,重复值 (不破坏数据的客观规律)
L: load 数据加载
- 一般是将数据加载到数据仓库中,但是也可以加载到备份文件或者日志记录中.
- 在开发中,重要的数据信息,我们通常会保存不止一份(数据仓库存储+文件备份)
Windows安装Kettle
安装kettle 之前必须先安装jdk
jdk : java 开发工具包 (java开发环境)
jre : java 运行时环境 (java运行环境)
jvm : java 虚拟机环境 (java跨平台基础)
安装过程:
1.安装jdk8, 存放到指定位置即可,但是务必要能够找到该软件
2.找到java.exe文件的文件路径,并复制该文件路径
3.添加环境变量,在搜索栏中搜索"环境变量", 点击下方查询结果打开系统环境变量
4.点击环境变量进入编辑界面
5.点击编辑系统环境变量 >> 新建 >> 输入变量信息后点击确定
6.双击Path添加新的环境变量%JAVA_HOME%bin\,点击确定,保存环境变量修改内容.
7.验证环境变量的添加
- 在搜索栏输入cmd ,点击命令提示符
- 在终端窗口输入java -version如果能够输出版本信息,则java环境变量配置成功
8.将kettle压缩包解压后 点击spoon.bat 即可开启kettle
9.打开后状态
kattle使用:以将txt文件抽取到excel中为例
1.双击转换, 创建转换标签
也可以点击文件 >>> 新建 >>> 转换
也可以使用ctrl +n快速创建
2.从输入输出对象中拖拽 文本文件输入和excel输出到操作区域
3.点击shift从文本文件输入拖转一个箭头到excel输出
4.设置文本文件输入内容
4.1 双击进入文本文件输入编辑, 点击浏览,选择我们要作为输入源的文本文件
4.2点击增加,将文件路径,加载到选中的文件中
4.3 修改内容中的分隔符和编码格式
4.4 选择字段, 点击获取字段,查看字段的类型和格式
4.5 获取 字段信息后, 点击预览记录, 如果出现与预期不符的数据类型或格式,在上方字段处修改后,重新预览
4.6 点击确定, 完成文本文件对象编辑
5.设置excel输出内容
5.1 双击进入excel输出编辑.点击浏览, 选择excel输出位置,编辑输出文件名,点击保存
5.2 删掉扩展名信息
5.3 选择格式, 设置输出excel的样式
5.4 选择字段,点击获取字段,查看字段与预期格式和数据类型是否匹配,不匹配则在字段内容中修改,修改后点击确定
6.保存本次转换脚本
7.点击运行按钮, 然后启动脚本
8.查看输出文件, 发现格式不正确
例如: id 存在小数位, age也存在小数位, 生日存在时间点.
9.回到excel输出位置,修改输出字段格式
# 代表以字符串形式输出
0 代表数字仅保留整数部分
0.00 代表保留两位小数
yyyy-MM-dd 年-月-日格式
yyyy-MM-dd HH:mm:ss 年-月-日 时:分:秒 格式
10.重新保存并执行脚本, 查看最终输出结果,发现结果已经正常显示