初识大数据开篇--kettle---初级

公司一直是一个信息化程度非常高的企业,一直致力于用数据推动去发展,所有大数据是一个绕不开的话题,数据会帮助一个企业快速的发展。。

好啦不瞎扯淡了,最近看了好多关于大数据的知识,说到大数据当然离不开数据仓库、、python、、ETL等等一系列的辞藻。。。。

而我今天要说的这个东西就是ETL的实践--------kettle。
什么是ETL,在我看来ETL就是构建数据仓库的一个过程,负责将分布式、各种数据源中的数据、将一些关键数据抽取出来,到中间层进行清洗、转换、集成。最后放到数据仓库中,为分析做准备,其实ETL也有别的用途啦,比如说数据迁移,或者是数据的同步。

那么再说说kettle吧~它属于ETL的一个工具吧,就像一个中间层,将数据进行处理和变更

说这么多吧,反正也大概明白kettle是个什么东西了吧~就是把数据拿出来整理成自己的格式,然后再放到一个地方,备分析使用的一个工具。

最长脸的是kettle是纯java写的啊~

以下属于纯笔记,如果你是kettle的老大哥那么可以略过啦

表输入的选项内涵:

执行每个输入行:意思是么,如果上面有一个输入语句,下面还有一个输入,要接受上面输入的内容,就必须执行输入进来的每一行

允许简易转换:大字段的延迟转换(延迟转换性能更高,采用byte方式处理,否则就是string方式)大字段的延迟转换(延迟转换性能更高,采用byte方式处理,否则就是string方式)主要为了避免不必要的数据类型转换,提高性能

替换sql语句中的变量:意思是可以将环境变量传进来,使用环境变量的时候必须使用${}

Pan命令执行ker文件
文件路径。 日志级别为最小日志,将日志输出到test.log目录下
./pan.sh -file="/Users/luziyuan/Desktop/test.ktr" -level=Minimal >> ./test.log

如果我们想使用kettle定时去执行ktr脚本直接写一个liuex定时任务,然后直接将

1.Pan命令直接写到一个脚本里面然后定时去执行
15,45 * * * 1-5 /PROD/update_dimensions.sh

2.生成记录:
模拟数据生成,然后生成一系列的字段和属性,然后将生成的字段进行输出,数据库excel都可以
限制写多少行就会显示多少行(一般主键不在这里生成)
格式:int 0 string #

3.增加序列:
可以设置自增的主键id(输入的时候可以将其当作增加字段的方法)

4.获取系统信息:
可以拿到当前时间 ip地址 主机名称 某天的某个时间 jvm的一些数据都可以弄到,凡是关于系统方面都找这个

5.排序记录:
可以使用将输入流的按照某个字段排序进行排序然后再输出

6.去除重复记录:
去除重复,可以将一个字段重复的都删除,并且将有相同字段的数量统计出来

7.替换NULL值转换工程:
可以将工程的
如果某个类型为null值那么将其替换为指定的值
如果某个属性的值为null那么将其替换为指定值
如果不指定以上的内容那么就默认将所有的null值都替换为一个指定的值

8.过滤记录
可以对一个字段进行过滤,大于小于like 判断是否为null,正则过滤,包含什么字符串,黑底红字表示取反 ,白底黑字为not不选中

9.值映射
将某个字段的某个值映射为另一个值,如将某个字段为男的值映射为1但是一定是字符串的1类型,

10.字符串操作
此操作只能读取到类型为字符串类型,并且对字符串类型进行操作

11分组操作

可以按照某个字段进行分组,然后进行聚合求平均数或者是求和或者是个数,group by ,group by之前必须要按照group by的那个字段进行排序进行排序

12增加常量
不变的值,但是每个需要有个字段去显示这个时候就需要用到,增加一个不变的值

13将字段设置为常量
将一个不是常量的值设置为常量替换为常量

14剪切字符串,将一个字符串按照下标剪切生成新的长度的字符串

15拆分字段
将一个字段的值按照某个符号拆分为多个字段,(将一个字段拆分的好方法)

16数值范围
输入一个字段并且输入上界和下界,输出一个新的字段·划定确定字段的范围

17计算器
将字段值的值进行数学运算,虽然一行只能有3个输入值,但是新字段又可以作为输入到下一个中,所以为数学运算创造了无限的可能

以上可能就是常用的一些初级工具吧~

最让我觉得可惜的是我使用的kettle7多的版本,居然没有clickhouse的连接方式,还得自己想办法。。。这就很难受。。需要自己写个支持方式,必须 吐槽一下。。。

纯笔记,学习使用,不喜勿喷

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值