- 博客(7)
- 资源 (5)
- 收藏
- 关注
原创 【ETL工具】Kettle 实现 HDFS文件解析同步到SQLServer数据库(ETL 包括:时间格式化、IP校验、字段拼接)
说明:想用Kettle Shell 组件 做到 HDFS中 文件的移动 ,脚本的命令也很简单 ,mv将 加了 .completed 解析完成后的文件移动到 bak 目录,这块想用 kettle的 Shell 组件实现,另外一个思路是直接在 linux 做一个 定时的文件移动也是可以的。此处我的另外一个实现思路是在作业启动的脚本中开启 一个 linux的定时器 ,定时的 将 解析后的 HDFS 的 .completed 文件移动到 bak 目录,也在进一步改进中。就配置一个当前脚本的运行路径,就生效了。
2020-06-22 23:03:56 1364 2
原创 【ETL工具】Kettle 解析HDFS文件进行字段拼接、字符的替换和IP校验
字段的拼接使用 JS 脚本实现,JS脚本在 Kettle 中使用起来很是方便,目前我使用 JS 实现过 IP 校验、字段拼接、文件移动。过滤记录的使用说明,过滤记录 组件的使用在 业务分离是很好用的,尤其是对正则匹配、字段的过滤。此处我是简单的使用,数据清洗不是很复杂没有使用到正则表达式。HDFS 文件获取后,选择 JS脚本组件,在。中可以看到接收到的字段。组件过滤掉不合法的IP。
2020-06-21 21:46:05 1137 2
原创 Kettle转换中SQL中的执行顺序(使用 阻塞数据直到步骤都完成 ===》控制转换中的 SQL执行顺序)
为什么会用到这个组件我就是想着转换串行的执行,根据时间戳增量的同步,作业一开始我就获取当前的时间戳,kettle 完成数据之后,再执行时间更新操作,更像是动态的把时间向前推,因为作业执行也需要时间,公司传感器收集的数据会MySQL,数据几分钟刷新一次,不想丢失数据,也不能重复,尽可能保持数据一致性。kettle中转换和作业的执行顺序:1、一个作业内的转换,是顺序执行的。2、一个转换内的步骤是并行执行的。3、作业内不支持事务,转换内支持事务。根据业务需要,...
2020-06-10 15:41:35 6522 5
原创 【ETL工具】kettle 根据时间戳增量的将数据从MySQL同步SQLServer(linux部署脚本启动作业、config.properties 配置数据库)
从MySQL 按时间增量同步到 SQLServer,MySQL中的数据会源源不断的写入,不会删除数据, SQLServer根据 MySQL表中的 modifytime 做增量同步就好,三台阿里云机器做数据的接入、计算、同步。
2020-06-10 14:15:09 2940 3
原创 【Ambari】FAILED:HiveAccessContorlException Permission denied: user[hive] does not havar[USER] privil
ranger则是针对组件内的权限 ,比如HDFS的读写执行,Hive和Hbase的读写更新,yarn的队列资源使用权,目前ranger只支持 hdfs,hive,hbase,kafka,yarn等组件,针对于组和用户对资源的访问权限进行细粒度的控制。
2020-06-09 09:41:22 4280 2
原创 【ETL工具】Kettle 数据同步 Caused by: com.microsoft.sqlserver.jdbc.SQLServerException
不能将值 NULL 列 'dataType',表 'test1.student';列不允许有 Null 值。INSERT 失败。 at org.pentaho.di.core.database.Database.insertRow(Database.java:1319) at org.pentaho.di.core.database.Database.insertRow(Database.java:1243) at org.pentaho.di.core.database.
2020-06-05 14:07:23 1339
原创 Apache Griffin 安装与简介
目录一、Griffin简介二、安装部署2.1 依赖准备1、初始化2、Hadoop和Hive3、Scala 安装4、 ES的安装与启动2.2 源码打包部署一、Griffin简介数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资.
2020-06-03 17:01:29 4987
python基础语法入门
2024-05-01
HBase数据库性能调优
2024-05-01
2024 Redis面试宝典
2024-05-01
全国计算机二级十套历年真题
2024-04-30
Java最新大厂面试宝典
2023-10-11
程序猿面试简历模板精选
2023-10-10
dbeaver-ce-6.3.1-win32.win32.x86_64.zip
2020-02-14
SublimeText3_Build3083_x64_XiaZaiBa.zip
2019-08-15
eclipse-jee-2018-09-win32-x86-64.zip
2019-08-12
npp.6.9.2.Installer.zip
2019-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人