概述
Kettle是一款开源ETL工具,纯Java编写,可以在Window、linux、Unix上运行。
存储方式:以XML形式存储、以资源库方式存储
组成:
特点:
安装
https://community.hitachivantara.com/docs/DOC-1009855
Windows下安装
安装JDK
下载kettle压缩包后解压到任意路径
启动Spoon.bat
导入jar包,否则报错
案例一
把MYSQL中stu1的数据按id同步到stu2,stu2有相同id则更新数据
插入更新同理
设置一下
运行
案例二
再执行案例一的同时,向stu2中添加一条数据
新建一个sql
先将test1的结果删除掉
之后
执行,查看结果
案例三
案例3:将hive表的数据某几条输出到hdfs
需要修改一下kettle
修改解压目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties,设置active.hadoop.configuration=hdp26
还需要设置配置文件
hive中表
hive (yyx_hive)> select * from emp;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7369 SMITH CLERK 7902 1980-12-17 800.0 NULL 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
7566 JONES MANAGER 7839 1981-4-2 2975.0 NULL 20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.0 NULL 30
7782 CLARK MANAGER 7839 1981-6-9 2450.0 NULL 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.0 NULL 20
7839 KING PRESIDENT NULL 1981-11-17 5000.0 NULL 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
7876 ADAMS CLERK 7788 1987-5-23 1100.0 NULL 20
7900 JAMES CLERK 7698 1981-12-3 950.0 NULL 30
7902 FORD ANALYST 7566 1981-12-3 3000.0 NULL 20
7934 MILLER CLERK 7782 1982-1-23 1300.0 NULL 10
Time taken: 0.649 seconds, Fetched: 14 row(s)
hive (yyx_hive)> select * from dept;
OK
dept.deptno dept.dname dept.loc
10 ACCOUNTING 1700
20 RESEARCH 1800
30 SALES 1900
40 OPERATIONS 1700
Time taken: 0.073 seconds, Fetched: 4 row(s)
要设置hiveserver2
按照deptno排序
合并排序
选择需要的字段(清除一下元数据)
输出到HDFS
中间会报错,因为我们没有处理权限,于是,将整个HDFS修改为权限777(中间对dell进行了修改名,没有重启,等等再试)
案例四
读取hdfs文件并将sal大于1000的数据保存到hbase中
从HDFS输入到hbase
首先、先处理输入文件
数据
过滤
hbase输出
完成
第一次没有修改字符串,乱码了