数据清洗
斑鸠同学
我爱it
展开
-
巧妙利用sql方式对hive表小文件合并
巧妙利用sql方式对hive表小文件合并原创 2022-03-25 14:15:18 · 2994 阅读 · 2 评论 -
kettle连接hiveServer2
1.保证服务已经启动hiveServer22.kettle安装目录下有一个 pentaho-big-data-plugin文件夹 ,下面有一个配置文件 plugin.properties, 修改引入依赖的文件夹即可。修改插件引入文件夹名hdp25就是这个意思。...原创 2021-09-26 14:12:45 · 403 阅读 · 1 评论 -
kettle加快插入速度提升---其阻挠的主要因素
提供kettle插入速度有人提出修改一些数据库配置参数, 或者开启多线程, 多任务. 但是这不算最主要的. 因为大部分时候,数据插入需要对比. 如图: 插入或者更新的操作中, 如果id相同, 就比较内容进行更新. 如果id不同,就进行插入. 意味着,插入的前提是先查找id,进行id值对比. 所以, 提高插入速度, 给id建立索引就可以了....原创 2019-10-15 15:18:05 · 2808 阅读 · 0 评论 -
kettle按顺序插入更新数据 在一个转换里按顺序执行转换先后或者优先级任务
多个转换任务并行同时往一张表里插入数据时,可能不是我们要的插入结果. 比如: 我们生产一批数据,但是在不同的转换里, 如何让这些转换按照顺序往通一张表里插入.如下图所示,搜索选择“数据流优先排序”就可以了。里面可以自由选择1_add到8_add的表插入操作的插入顺序. (内部的字段选择可以灵活使用)...原创 2019-08-27 18:37:16 · 5663 阅读 · 0 评论 -
kettle全面迁移转移(包括资源库,转换作业,安装软件等)
应用场景: 一个kettle运行里,比如有100个作业(当然作业下包含很多转换). 现在我们需要在另外一台服务器上或者机器上转移其中的50个作业并保证它运行起来. 如何解决.步骤如下:1.保证数据新的机器能登录上50个作业里所有的数据源的数据库. (如果你需要连接多个数据源. 建议在新机器上先用navicat连接各个数据库看一下. 当然,如果你单一的数据源,那就当我没说.)2...原创 2019-09-29 18:35:16 · 6044 阅读 · 2 评论