数据清洗基础—Kettle 数据转换与清洗、数据抽取操作

实验一:数据清洗基础—Kettle 数据转换与清洗、数据抽取操作

1 实验题目:Kettle 数据转换与清洗、数据抽取操作

2实验目和要求

2.1熟悉 Kettle 的开发环境,并掌握 Kettle 环境的配置与安装;

2.2能使用 Kettle 工具进行简单的数据转换与清洗操作

2.3能进行简单的与Web 抽取有关的操作

3实验步骤

1)安装 Kettle 开发工具

2)Kettle 数据转换与清洗

3)Web 数据抽取

4)撰写实验报告

  1. 实验内容

一、Kettle 开发环境及安装

1、电脑配及系统要置求

配置:内存4G或者以上

系统:64 位,win7 或以上(Linux/mac OS 亦可)

2、Ketlle介绍

Kettle 最早是一个开源的 ETL 工具, 全称为 KDE Extraction, Transportation, Transformation and Loading Environment。在 2006 年,Pentaho 公司收购了 Kettle 项目,从此, Kettle 成为企业级数据集成商业智能套件 Pentaho 的主要组成部分。

Pentaho Data Integration 以Java 开发,支持跨平台运行,其特性包括:支持 100%无编码、拖拽方式开发 ETL 数据管道;可对接包括传统数据库、文件、大数据平台、接口、数据等数据源;支持ETL 数据管道加入机器学习算法。

Pentaho Data Integration 作为一个端对端的数据集成平台,可以对多种数据源进行抽取(Extraction)、加载(Loading)、数据落湖(Data  Lake  Injection)、对数据进行各种清洗、转换、混合,并支持多维联机分析处理OLAP)和数据挖掘

二、数据转换与清洗

1、使用Kettle读取XML文档

  1. 准备XML文档
  1. 启动Kettle,新建“转换”,在“输入”列表中选择Get data from XML
  2. 将XML文档添加至Get data from XML对象中,并设置“内容”、“字段”等选项卡

这是XML文件的内容:

 文件的读取:

内容设置:

 

 字段设置:

  1. 单击“预览”,查看结果。

2、将XML文档转换为JSON文档

1)新建“转换”,在“输入”列表中选择Get data from XML,在“输出”列表中选择JSON output,并建立连接

2)将XML文档添加至Get data from XML对象中,并设置“内容”、“字段”等选项卡

3)双击JSON output,设置“一般”、“字段”选项卡

4)在生成的JSON文件中查看结果

3、将EXCEL文档转换为XML文档

1)准备Excel文档

2)新建“转换”,在“输入”列表中选择Excel输入,在“输出”列表中选择XML output,并建立连接

3)双击“Excel输入”添加文件,并设置“工作表”、“字段”等选项卡

4)双击XMLoutput,设置文件的名称和路径、“字段”选项卡

文件获取:

内容设置:

字段设置:

 5)保存文件并运行

运行结果:

生成的文件:

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值