大数据ETL开发之图解Kettle工具入门到精通(附上kettle安装包)(1)

3.1.2 文本文件输入

提取服务器上的日志信息是公司里 ETL开发很常见的操作,日志信息基本上都是文本类型,因此文本文件输入控件是kettle中常用的一个输入控件。

任务:熟悉文本文件输入控件,并新建转换,将txt日志文件转换为Excel文件

使用文本文件输入控件步骤:

1) 添加需要转换的日志文件
在这里插入图片描述

2)按照日志文件格式,指定分隔符
在这里插入图片描述

3)获取下字段,并给字段设置合适的格式(数字类型的数据尽量选Integer,因为number类型有两位小数点)

4)最后点下预览记录,看看能否读到数据

在这里插入图片描述
在这里插入图片描述

3.1.3 Excel文件输入

Excel输入控件也是很常用的输入控件,一般企业里会用此控件对大量的Excel文件进行ETL操作。

任务:两张sheet表合二为一

使用Excel输入控件步骤如下

原始数据:
在这里插入图片描述
在这里插入图片描述

1)按照读取的源文件格式指定对应的表格类型为 xls 还是 xlsx

2)选择并添加对应的excel文件
在这里插入图片描述

3)获取excel的sheet工作表
在这里插入图片描述
在这里插入图片描述

4)获取字段,并给每个字段设置合适的格式
在这里插入图片描述

5)预览数据
在这里插入图片描述

3.1.4 XML输入

1)XML简介

XML可扩展标记语言eXtensible MarkupLanguage,由W3C组织发布,目前推荐遵守的是W3C组织于2000年发布的XML1.0规范。XML用来传输和存储数据,就是以一个统一的格式,组织有关系的数据,为不同平台下的应用程序服务。

在这里插入图片描述

2)XPath简介

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。XPath使用路径表达式在XML文档中选取节点。下面列出了最有用的路径表达式

在这里插入图片描述

3)XML输入控件

了解XML和XPath概念以后,我们要开始学习Kettle的XML输入控件,企业里经常用此控件进行XML文件的ETL操作。

任务:熟悉XML输入控件,将XML文件的学生数据写到excel文件中

1.浏览获取xml文件,将xml文件添加到kettle中
在这里插入图片描述

2.获取 xml文档的所有路径,设置合适的循环读取路径
在这里插入图片描述

3.获取字段,获得自己想要读取的所有字段,并且设置适当的格式
在这里插入图片描述

4.预览数据,看看能否读取到自己想要的数据
在这里插入图片描述

3.1.5 JSON输入

1)JSON介绍

JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。JSON对象本质上就是一个JS对象,但是这个对象比较特殊,它可以直接转换为字符串,在不同语言中进行传递,通过工具又可以转换为其他语言中的对象。

JSON核心概念:

  • 数组:[]
  • 对象:{}
  • 属性:key:value

2)JSON Path

JSONPath 类似于 XPath 在 xml 文档中的定位,JsonPath 表达式通常是用来路径检索或设置Json的。其表达式可以接受“dot - notation”(点记法)和“bracket -notation”(括号记法)

格式:

  • 点记法:$.store.book[0]title
  • 括号记法:$[‘store’][‘book’ ][0][ ‘ title’ ]
    在这里插入图片描述

3)JSON 输入控件

了解JSON格式和JSON Path以后,我们要学习使用JSON输入控件,JSON控件也是企业里做ETL常用的控件之一

任务:获取到JSON文件里面的id,field,value字段,写到excel文件中

原始数据:
在这里插入图片描述

1.浏览获取JSON文件(注意文件路径不能有中文),将json文件获取到kettle中
在这里插入图片描述

2.根据JSON Path点记法,获取到需要的字段,并且设置合适格式
在这里插入图片描述

在这里插入图片描述
3)新建JSON输入控件2

第二步的数据内容为:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3.1.6 表输入

表输入可以说是kettle中用到最多的一种输入控件, 因为企业中大部分的数据都会存在数据库中。kettle可以连接市面上常见的各种数据库,比如Oracle,Mysql, SqlServer等。但是在连接各个数据库之前,我们需要先配置好对应的数据库驱动,本教程以mysql为例,给大家讲解kettle连接mysql数据库的过程。

在这里插入图片描述
1)创建数据库连接

MySQL驱动下载(一定要下载对应数据库版本):官网下载地址
在这里插入图片描述

首先我们要将对应版本的mysql连接驱动放到kettle 安装目录下面的lib文件夹下,然后重启kettle 的客户端Spoon

  • 24
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值