自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夫唯不争,故天下莫能与之争。

属于你的东西,你就要努力去争取。微信公众号【数据空间站】

  • 博客(6)
  • 资源 (2)
  • 收藏
  • 关注

原创 【5】Kettle作业Demo

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。前面说到的都是在一个转换内处理。最终一个转换处理完成后,需要构建一个工作流Job。Demo:运行一个转换,如果期间运行错误,则将错误日志发送邮件给关注者执行成功,什么都不做1.新

2018-02-23 11:09:29 2742

原创 【4】Kettle中嵌入Sql脚本、Java、JS

Sql脚本一些复杂的逻辑,难以用Kettle自带组件完成,可以使用sql语句完成,借助Kettle的【执行Sql脚本】组件Java以及JS1.可以将java代码直接打成Jar包,放入Kettle的 lib目录2.然后使用Js调用Jar包,得到结果。3. 也可以使用Kettle 自带的Java

2018-02-23 11:04:16 1324

原创 【3】Kettle记录集连接

多表的JOIN,可以直接用Sql写入 【表输入】 组件,也可以借助Kettle提供的【记录集连接】组件使用Kettle的记录集连接组件,必须首先要两个输入数据集是有序的,并且是根据需要Join的字段排序,这里可以借助Kettle的【排序记录】组件1.将两个数据集根据要Join的字段进行排序2.然后选择记录集连接组件,填写相关信息

2018-02-23 10:57:31 5980

原创 【2】Kettle常用组件

剪切字符串Concat Field :拼接字段值映射字符串替换:可使用固定字符串替换,或者正则表达式替换增加常量:给输出增加其他字段字段选择:用于筛选输出的字段,或者更改输出格式(元数据页)过滤记录写日志:可用于调试使用...

2018-02-23 10:14:11 1713

原创 【1】Kettle输入输出

输入最常用的输入便是表输入了。1.读取表数据,首先建立数据库连接。点击:文件-->新建→数据库连接填写相关信息,如下2.选择表输入3.双击表输入组件,填写相关信息。点击预览可查看sql执行结果输出输出可为 文件、其他数据库,HDFS、HBase等输出文件4.填写文本文件输出组件的信息输出表中5.选择插入更新组件,选择要插入的表的连接信息输出为HDFS文件同文本文件输出,只不过需要指定Hado...

2018-02-23 10:01:51 1514

原创 记一次Mysql线上死锁

Mysql死锁日志解读(SHOW ENGINE INNODB STATUS;)2018-02-01 09:20:25 2b113e040700 INNODB MONITOR OUTPUT=====================================Per second averages calculated from the last 58 seconds------------...

2018-02-23 09:51:28 1933

Apache Kylin 权威指南

Apache Kylin 权威指南 高清版,中文 Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎。它采用 多维立方体预计算技术,可以将大数据的SQL查询速度提升到亚秒级别。 相对于之前的分钟乃至小时级别的查询速度,亚秒级别速度是百倍到千 倍的提升,该引擎为超大规模数据集上的交互式大数据分析打开了大 门。

2017-10-18

Python经典复习题

列出了Python初学者的基础练习题,有助于Python初学者掌握基础语法知识

2014-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除