Pentaho
monkey22
这个作者很懒,什么都没留下…
展开
-
用Notepad++录制宏
我们需要将csv文档的表头变成MySQL DB的栏位,这样导入csv数据的时候,能根据设定好的栏位来处理和导入对应栏位的数据,用Notepad++可以实现这半自动化的功能。步骤如下:将需要处理的csv表头复制粘贴到Notepad++:Ctrl+F,调出Find,然后用正则表达式处理:复制空格,Replace with用 \r然后用^及$在前面及后原创 2017-08-23 10:01:53 · 5658 阅读 · 1 评论 -
Ubuntu Server 16.04 安装Pentaho PDI 7.1
参考: http://fcorti.com/2016/12/05/installing-pentaho-data-integration-7/1. 安装JAVA运行环境sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installers原创 2017-09-06 14:14:08 · 1806 阅读 · 0 评论 -
Pentaho PDI 数据导入关于时间格式及重复数据处理这2个问题的解决方法
最近处理数据,遇到这2个问题,思考了很久,最近突然开窍把问题解决了,记录如下:第一个问题,如下图所示,数据生成的csv文件只有时分秒,而数据库设定的格式为年月日时分秒,因此导入数据库是提示出错,那年月日那里去了?原来写软件的工程师把年月日作为文件名了这样用PDI处理的话,可以用如下方式解决,整体过程如下:1. 读取文件时,将文件名一起读入,这原创 2017-09-25 14:37:53 · 721 阅读 · 0 评论 -
对于数据去重的处理-PDI导入前及数据库端的双重设定
数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报原创 2017-09-25 21:25:11 · 818 阅读 · 0 评论 -
Pentaho PDI用Kitchen自动运行job
脚本如下,其中文件路径是比较tricky的地方,在windows下要这样写:/file:D:\AA\bbb\,全部连在一起没有空格,前面的参数是/file跟网上写的不同,我用的是PDI 7.1以下为bat文件内容:----------------------------D:cd "\data-integration"call kitchen.bat /file:原创 2017-09-27 14:06:24 · 494 阅读 · 0 评论 -
Pentaho PDI Job通过Gmail发邮件的设定
网上查询了一轮,原来最关键的是在gmail账户上安全设定要调低。1. 登陆Gmail账户,到账户 - > 登陆与安全,将Allow less secure apps调为On,我之前没打开这个时,gami立即收到安全警告邮件,说阻止了一个不安全登陆。PDI mail也无法发送邮件,提示错误。2. PDI Job Mail设定如下:原创 2017-09-27 09:17:57 · 956 阅读 · 0 评论 -
Pentaho PDI对于错误信息的处理
导入一批数据时提示错误,提示有一个序列号的数据有问题,可用信息包含一个产品序列号和对应的时间戳,可是我导入的是csv文件,有几百个,根本不知道这个产品包含在那个csv文档中。查找后,PDI对于错误日志的处理可以用如下方式:1. 打开log level,让log的输出内容更丰富2. 鼠标右键点选对应步骤,选择Error Handling3. 加原创 2017-09-27 18:26:16 · 750 阅读 · 0 评论