![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ETL
黑暗料理界的扛把子
新的公司新的开始,每天都是活力满满
展开
-
kettle组件-行转列
使用场景描述使用组件【转换-》行转列】原创 2020-07-21 16:31:48 · 271 阅读 · 0 评论 -
python 实现多表组合
A库中a表字段:A库a表 原名称 序号 提交时间 微信OpenID 饮食方案评价 运动方案评价 管理师评价 现在名称 id inputTime wxOpenId eatProgram motionProgram mTEvaluation 注:a表提交时间格式为:时间戳:需要转换为时间格式B库中b表字段:.原创 2020-06-16 10:14:07 · 355 阅读 · 0 评论 -
列转行与数据集连接在业务场景的组合应用
今天业务部门提出了一个数据需求,需要将两批数据整合在一起,并要求固定的格式。需求图以前做这种图都是通过excel的vlookup,但涉及到业务类型,需要增加行的就比较麻烦了。现在通过kettle 的列转行和数据集连接实现这个功能制作流程图列转行组件的各部分代表意义列转行组件记录集连接(left out)记录集连接如有疑问可咨询微信:c243126035...原创 2020-05-09 11:53:50 · 178 阅读 · 0 评论 -
行列转换小工具
近期在做数据迁移时看到以往的日常报表格式如下图左边,而我入库的结构为下图右边。具体的实现方式:使用kettle的行专列组件进行转换1、转换步骤名称:步骤的名称,在单一的转换中,名称必须唯一。2、Key字段:即关键词字段,行转列操作后,在此配置的字段会形成一个新字段,“Key字段”就是为这个新字段名称。其值为行转换组件中配置的所有“Key值”集合。3.字段:指定用来转变的字段集合,点击右...原创 2020-04-29 17:01:27 · 1002 阅读 · 5 评论 -
kettle 十分钟百万数据迁移
现在需要对以往数据进行整合并进行数据迁移确定目标表 数据源及数据量如下待迁移数据 目标表与Z0_工单_整理备份 的字段是一致的。为了方便后续操作(增删改查、数据迁移、增量备份)需要新增几个字段 1、 id 作为主键,方便更新、删除等修改操作 2、inserTime 数据插入时间,记录更新频次 3、updateTime 时间戳,记...原创 2020-01-20 10:32:29 · 3650 阅读 · 2 评论 -
kettle 优化表输出
今天进行教室信息整理数据入库的时候,因为更换了mysql服务器。导致数据插入速度极慢,因此需要调优——增大数据插入速度。所以考虑了一些方式 原本将近7分钟插入的数据只用不到三秒解决,下面是优化方式及结果目录 mysql连接数优化kettle 数据库插入操作优化kettle 允许线程多开适当提高数据集的大小增加Java虚拟机内存更改表输出提...原创 2019-12-08 15:13:01 · 1237 阅读 · 0 评论 -
kettle Excel输入 使用注意事项
1、组件位置2、组件功能读取数据可同时读取多个excel内 sheet名称不同 sheet内字段相同的多个excel内的数据处理数据对字段的类型、长度、经度、格式等进行整理3、使用流程不做错误处理:文件(选择表格引擎;添加文件或目录添加读取excel)---》工作表(选取使用的sheet)---》字段(获取来自头部数据的字段)---》规整格式---》预览文件(选...原创 2019-10-23 18:08:02 · 5372 阅读 · 7 评论 -
kettle入门级操作第一篇(读取excel、输出excel)
目录一、excel 读取并更改信息格式1读取信息1)、文件2)、工作表3)、错误处理4)字段二、数据更改1、数值类型保留小数2、时间类型规范格式一、excel 读取并更改信息格式1读取信息组件位置:转换-》输入-》Excel 输入组件使用:1)、文件表格类型(引擎):Excel 97-2003 XLS (JXL) : 读取03版本...原创 2019-08-11 15:32:13 · 12862 阅读 · 0 评论 -
kettle EXCEL 累计输出数据
项目当中有些数据是需要进行累积的,每次读取原有数据再写入全部数据,耗时太多。以前输出excel 都是直接选择 kettle 当中的 Excel输出,然而今天眼前一亮。Excel输出 输出的excel为2003版本的很多 excel 函数是不支持的。经我猜想这Microsoft Excel 输出肯定是支持2007版本的excel的。经我探索发现:1、可以输出2007版本exc...原创 2019-07-26 16:01:46 · 1015 阅读 · 0 评论 -
kettle引用外部脚本完成电话号码清洗、去重缩进
项目需要对电话是否真实进行判断,并去除重复项。今天在项目当中引用java 脚本进行数据清洗时,创建List<String> 之后程序就各种报错。求大神指教~~~于是参考了张小凡vip的kettle案例四使用java脚本进行数据处理,解决了遇到的问题。1、电话清洗电话分为两种:座机、手机清洗规则如下:正则匹配出其中全部的数字;删除首位非0数字前的全部0;针...原创 2019-07-22 18:24:47 · 822 阅读 · 0 评论 -
kettle 分列、合并记录
项目当中遇到一个问题一个班级会和其他班级合班。合班的数量不一定。目前人数= 合班班级目前人数之和。处理思路分列,获取班级目前人数,过滤,排序记录、分组、输出结果实践1、目前数据的原始格式:2、分列分列组件位于:转换-》列拆分为多行分列组件需要制定拆分字段、分隔符。在特殊需求下可以结合正则表达式进行数据拆分。分列后结果:3、获取目前人数目...原创 2019-07-16 14:20:07 · 5235 阅读 · 1 评论 -
kettle 合并记录 数据减少
今天进行数据合并操作遇到这样一个问题:合并记录为207条、输出为206条参考了其他人的文章提供的结局思路1.在操作db时,控制顺序,先delete,后insert,这样数据不会少2.我猜测,一个修改的数据可能在判断是新增、修改、删除时,在旧数据源没有最快找到记录,就标记成new,后面在旧数据源找到一条数据,在新数据源中(已经过去的数据不考虑)没有找到,就标记成deleted所以解...原创 2019-07-18 11:58:24 · 1600 阅读 · 0 评论 -
利用kettle HTTP Client 获取百度API区域位置内相关信息,并解析json
Kettle 除了常规的数据处理之外,还可以模拟发送HTTP client/post ,REST client。这几天我用HTTP GET 请求访问了百度 提供的接口(百度地图开放平台),并通过kettle、java两种方式进行了解析。kettle使用组件是 json input ;java使用的 阿里巴巴Json工具 :Fastjson ;对于新手来说kettle 的HTTP G...原创 2019-07-11 09:44:41 · 3446 阅读 · 1 评论 -
kettle switch / case 控件实现分类处理
在做数据清洗的时候,经常要根据一个或几个字段的内容进行某一字段值的判断。往常针对多个字段我都是通过 java脚本 完成。但是~~~java脚本经常会出现各种奇奇怪怪的问题,比如ecplise运行没问题,java脚本就出现错误。蛋疼.jpg所以哪怕麻烦点也想换个一次成功的,这时候switch / case 组件搭配 将字段值设置为常量 组件发挥了作用。二者分别位于流程(sw...原创 2019-07-03 09:41:41 · 3366 阅读 · 0 评论 -
kettle java脚本数据字段类型非常规
使用kettle的java脚本对数据进行清洗,但是发现清洗完成之后无法插入数据库、excel输出。报错如下图:文章当中显示的错误类型为:字段类型不一致查看源代码,可以发现kettle中的数据类型,跟java的对应数据类型如下:case ValueMetaInterface.TYPE_STRING : parameterType = String.class; break;cas...原创 2019-06-25 18:27:46 · 1825 阅读 · 0 评论 -
kettle JVM内存设置---效果不明显
1、查看本地JVM内存大小 JVM初始分配的内存由-Xms指定,默认是物理内存的1/64;JVM最大分配的内存由-Xmx指 定,默认是物理内存的1/4。默认空余堆内存小于 40%时,JVM就会增大堆直到-Xmx的最大限制;空余堆内存大于70%时,JVM会减少堆直到-Xms的最小限制。因此服务器一般设置-Xms、 -Xmx相等以避免在每次GC 后调整堆的大小。可以利用JVM提供的-Xmn...原创 2019-06-20 17:39:42 · 13380 阅读 · 4 评论 -
kettle 通过java脚本对数据进行标注
在项目当中遇到一种情况:我需要根据不同字段的值综合判断该数据属于我划分的哪种类型。如果是单个字段我们可以根据kettle提供的switch / case 组件进行判断并赋值,但是如果通过多个字段或者是添加某种限定条件对数据整体进行处理,该组件的功能不足以支持。这种时候我开始怀念以前用java进行数据清洗,内存崩了的时候。java为我们数据清洗提供了更加广泛的维度,恰巧kettle提供的多种脚本...原创 2019-06-20 14:13:27 · 1399 阅读 · 0 评论 -
kettle8.2 安装及常见问题
刚才写博客发现没有发过kettle 安装的流程,这里写一下。kettle是纯java手写的可视ETL处理工具,因此~~需要java程序的运行环境JDK.1、下载kettle压缩包(百度网盘8.2.版本kettle)链接:https://pan.baidu.com/s/1HPH8Da5EPWhUAXeLR7zRUQ提取码:vrkc2、解压到自己的电脑 注意事项不要有...原创 2019-06-20 12:00:44 · 6097 阅读 · 3 评论 -
kettle学习——8.2版本的资源库配置变为灰色,且没有了Connect按钮
资源配置变为灰色的3种情况 1) JDK版本不对,JDK需求为1.8版本 2)IE浏览器未升级,IE浏览器版本需求为9及以上,且需要部分必备更新。 必备更新文件百度网盘链接:https://pan.baidu.com/s/1eIf8bKi8De5jepJofoshPA 提取码:mvwk 3)repository.xml文件出现了乱码问题,解决方法:...原创 2019-03-01 11:31:36 · 7561 阅读 · 5 评论