kettle软件的使用

最新推荐文章于 2024-07-31 11:18:40 发布

呼伦贝尔-钢蛋儿

最新推荐文章于 2024-07-31 11:18:40 发布

阅读量1.6k

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/qq_38220334/article/details/113794796

版权

1.CSV文件转换为excel文件

选择文件-新建-转换
crtl+s 保存，给这个转换起个名字

在输入中选择CSV文件输入
在输出中选择excel文件输出
点击CSV文件输入-按住shift-拖动鼠标到excel输出就可以了
在这里插入图片描述
双击CSV文件输入
输入你的步骤名称
选择浏览，找出你要转换的CSV文件
点击获取字段，可以看到你CSV文件中的内容
点击确定后点击excel输出
点击浏览
选择你要输出文件的位置
给excel起个文件名字
点击字段
点击获取字段
在这里插入图片描述然后点击运行
去输出文件中去查看，三列字段的精度有些问题
然后去excel输出中点击字段
把格式调整为如下；
重新运行，然后再去excel输出中查看，问题已经解决

2.文本文件转换为excel文件

先点击文本文件输入的浏览，再点击增加
在这里插入图片描述点击内容中的分隔符，确认文本文件中的分隔符和内容中的分隔符是否一致
点击字段中的获取字段，查看内容是否正确
然后excel输出就类似了，点击浏览，获取字段------

3.excel文件转换为excel文件

先看你的excel文件是xls还是xlsx结尾的
然后选择表格类型，在浏览表格，点击增加
在这里插入图片描述点击字段，点击获取字段
这么多字段的原因是源文件中有两个sheet页
删除下面的sheet页中的字段即可

4.excel文件转换为excel文件（多文件合并）

源文件是这样的
1.
在这里插入图片描述 2.
3.这两个文件的路径
开始合并操作
选择浏览最外层的文件，然后点击增加
然后文件的位置写到最外层文件的位置
通配符写法是几个文件通用的地方写好加上*号
是否包含子目录：这个非常重要，选择是，实际开发中文件肯定是存在多个目录下的
在这里插入图片描述输出的时候参考上面的excel输出即可

5.get data from xml文件转换为excel文件

需求：获取testDescription、rowID、v1、v2
分析：testDescription、rowID是属性，v1、v2是节点
源文件如下；

<?xml version="1.0" encoding="UTF-8"?>
<AllRows testDescription="1 - simple functionality test">
<Rows rowID="1">first row chunk of data
 <Row><v1>1.1.1</v1><v2>1.1.2</v2></Row>
 <Row><v1>1.2.1</v1><v2>1.2.2</v2></Row>
</Rows>
<Rows rowID="2">second row chunk of data
 <Row><v1>2.1.1</v1><v2>2.1.2</v2></Row>
 <Row><v1>2.2.1</v1><v2>2.2.2</v2></Row>
</Rows>
<Rows rowID="3">third row chunk of data
 <Row><v1>3.1.1</v1><v2>3.1.2</v2></Row>
 <Row><v1>3.2.1</v1><v2>3.2.2</v2></Row>
</Rows>
</AllRows>

点击浏览，点击增加
在这里插入图片描述这里填写的非常重要
先填写读取的文件的路径
然后填写节点或者属性的路径

在这里插入图片描述后面输出到excel中不做介绍了

6.json文件转换为excel文件

需求：从json文件中提取id、field和value数据到excel
源数据：

{
    "status": "ok",
    "response": {
        "submissions": [
            {
                "id": "59434767",
                "timestamp": "2011-11-21 09:21:53",
                "user_agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0",
                "remote_addr": "192.168.1.1",
                "payment_status": "",
                "data": [
                    {
                        "field": "13776121",
                        "value": "Baylor Dallas"
                    },
                    {
                        "field": "13776401",
                        "value": "CHF"
                    },
                    {
                        "field": "13777966",
                        "value": "John Doe"
                    },
                    {
                        "field": "13780027",
                        "value": "9999"
                    },
                    {
                        "field": "13778165",
                        "value": "None of the above"
                    },
                    {
                        "field": "13778985",
                        "value": "Yes"
                    },
                    {
                        "field": "13778280",
                        "value": "Yes"
                    },
                    {
                        "field": "13778424",
                        "value": "Yes"
                    },
                    {
                        "field": "13778290",
                        "value": "Yes"
                    },
                    {
                        "field": "13778324",
                        "value": "Yes"
                    },
                    {
                        "field": "13778864",
                        "value": "Yes"
                    }
                ]
            },
            {
                "id": "59474875",
                "timestamp": "2011-11-21 17:01:22",
                "user_agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0",
                "remote_addr": "192.168.1.1",
                "payment_status": "",
                "data": [
                    {
                        "field": "13776121",
                        "value": "Healthsouth,"
                    },
                    {
                        "field": "13776401",
                        "value": "Pneumonia"
                    },
                    {
                        "field": "13777966",
                        "value": "Jane Doe"
                    },
                    {
                        "field": "13780027",
                        "value": "390"
                    },
                    {
                        "field": "13778165",
                        "value": "Experienced a fall?"
                    },
                    {
                        "field": "13861153",
                        "value": "Yes"
                    },
                    {
                        "field": "13780018",
                        "value": "Yes"
                    },
                    {
                        "field": "13780006",
                        "value": "No"
                    },
                    {
                        "field": "13780023",
                        "value": "Yes"
                    },
                    {
                        "field": "13780024",
                        "value": "Yes"
                    }
                ]
            }
        ],
        "total": 2,
        "pages": 1
    }
}

需要分两步走：
第一步：获取data
第二步：从data中获取field和value
在这里插入图片描述

点击浏览，点击增加
在这里插入图片描述填写字段相关内容如下；
第二个json输入是从第一个中的字段中获取的，所以这么写
填写字段
输出到excel不做介绍了

7.生成记录

需求：生成10000条数据
在这里插入图片描述

8.表输入

需求：从MySQL数据库的wzx库的user表数据导入到excel中
前提是先把连接MySQL的jar包放到kettle的\data-integration\lib目录下
点击新建：填写相关的MySQL的相关信息，然后点击测试按钮
在这里插入图片描述点击测试后，显示如下，测试通过
注意：MySQL的jar包的版本要和你安装的MySQL的版本相对应
点击获取SQL查询语句